Python Tokenizer.discovery_dir 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tokenizer

클래스/타입: Tokenizer

메소드/함수: discovery_dir

hotexamples.com에서의 예제들: 4

Python Tokenizer.discovery_dir - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tokenizer.Tokenizer.discovery_dir에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

예제 #1

파일 보기

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('-n',
                        '--min',
                        type=int,
                        default=3,
                        help="minimun length of terms")
    parser.add_argument('-x',
                        '--max',
                        type=int,
                        default=50,
                        help="maximun length of terms")
    parser.add_argument('-s',
                        '--stopwords',
                        type=str,
                        help="file containing stopwords")
    parser.add_argument('-q',
                        '--queries',
                        type=str,
                        help="file containing the queries")
    parser.add_argument('-d',
                        '--dir',
                        type=str,
                        default=getcwd(),
                        help="directory to scan, default: current working dir")
    parser.add_argument('-nv',
                        '--not-verbose',
                        action='store_false',
                        default=True,
                        help="Show messages during process")
    parser.add_argument('-t',
                        '--stemmer',
                        choices=["lancaster", "porter"],
                        default=True,
                        help="choose stemmer")
    parser.add_argument(
        '-i',
        '--in-memory-index',
        action='store_true',
        default=False,
        help="keep index in memory – loads `.index.bin` to memory")
    parser.add_argument('-b',
                        '--blocks',
                        type=int,
                        default=400,
                        help="qty of documents processed to dump to disk")
    args = parser.parse_args()
    t = Tokenizer(dir=args.dir,
                  queries_file=args.queries,
                  stopwords_file=args.stopwords,
                  stemmer=args.stemmer,
                  term_min_len=args.min,
                  term_max_len=args.max,
                  verbose=args.not_verbose,
                  in_memory_index=args.in_memory_index,
                  qty_partial_docs=args.blocks)
    t.discovery_dir()
    t.make_queries()

예제 #2

파일 보기

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('-n', '--min', type=int, default=3, help="Minimun length of terms")
    parser.add_argument('-x', '--max', type=int, default=50, help="Maximun length of terms")
    parser.add_argument('-s', '--stopwords', type=str, help="File cotaining stopwords")
    parser.add_argument('-q', '--queries', type=str, help="File containing the queries. \nAccepted Formats:\n(TXT: some text to query\\n...), (JSON: { 'idq': 'some text to query', ... })")
    parser.add_argument('-d', '--dir', type=str, default=getcwd(), help="Directory to scan, default: current working dir")
    parser.add_argument('-nv', '--not-verbose', action='store_false', default=True, help="Show no messages during process")
    parser.add_argument('-t', '--stemmer', choices=["lancaster","porter"], help="Choose stemmer")
    parser.add_argument('-m', '--metric', choices=["cosine","scalar_prod"], default="cosine", help="Choose a metric to used during raking.")
    parser.add_argument('-w', '--weight', choices=["V1","V2","V3"], default="V3", help="Choose weighting scheme")
    args = parser.parse_args()
    t = Tokenizer(dir=args.dir, queries_file=args.queries, stopwords_file=args.stopwords, stemmer=args.stemmer, term_min_len=args.min, term_max_len=args.max, verbose=args.not_verbose, metric=args.metric, weight_scheme=args.weight)
    t.discovery_dir()
    t.make_queries()

예제 #3

파일 보기

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('-n',
                        '--min',
                        type=int,
                        default=3,
                        help="Minimun length of terms")
    parser.add_argument('-x',
                        '--max',
                        type=int,
                        default=50,
                        help="Maximun length of terms")
    parser.add_argument('-s',
                        '--stopwords',
                        type=str,
                        help="File cotaining stopwords")
    parser.add_argument(
        '-q',
        '--queries',
        type=str,
        help=
        "File containing the queries. \nAccepted Formats:\n(TXT: some text to query\\n...), (JSON: { 'idq': 'some text to query', ... })"
    )
    parser.add_argument('-d',
                        '--dir',
                        type=str,
                        default=getcwd(),
                        help="Directory to scan, default: current working dir")
    parser.add_argument('-v',
                        '--verbose',
                        action='store_false',
                        default=True,
                        help="Show messages during process")
    parser.add_argument('-t',
                        '--stemmer',
                        choices=["lancaster", "porter"],
                        default=True,
                        help="Choose stemmer")
    args = parser.parse_args()
    t = Tokenizer(dir=args.dir,
                  queries_file=args.queries,
                  stopwords_file=args.stopwords,
                  stemmer=args.stemmer,
                  term_min_len=args.min,
                  term_max_len=args.max,
                  verbose=args.verbose)
    t.discovery_dir()
    t.make_queries()

예제 #4

파일 보기

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('-n',
                        '--min',
                        type=int,
                        default=3,
                        help="minimun length of terms")
    parser.add_argument('-x',
                        '--max',
                        type=int,
                        default=50,
                        help="maximun length of terms")
    parser.add_argument('-s',
                        '--stopwords',
                        type=str,
                        help="file containing stopwords")
    parser.add_argument('-q',
                        '--queries',
                        type=str,
                        help="file containing the queries")
    parser.add_argument('-d',
                        '--dir',
                        type=str,
                        default=getcwd(),
                        help="directory to scan, default: current working dir")
    parser.add_argument('-v',
                        '--verbose',
                        action='store_false',
                        default=True,
                        help="Show messages during process")
    parser.add_argument('-t',
                        '--stemmer',
                        choices=["lancaster", "porter"],
                        default=True,
                        help="choose stemmer")
    args = parser.parse_args()
    t = Tokenizer(dir=args.dir,
                  queries_file=args.queries,
                  stopwords_file=args.stopwords,
                  stemmer=args.stemmer,
                  term_min_len=args.min,
                  term_max_len=args.max,
                  verbose=args.verbose)
    t.discovery_dir()