Python Tokenizer.fit_in_parallel 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tokenizer

클래스/타입: Tokenizer

메소드/함수: fit_in_parallel

hotexamples.com에서의 예제들: 2

Python Tokenizer.fit_in_parallel - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tokenizer.Tokenizer.fit_in_parallel에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

예제 #1

파일 보기

파일: model_hybrid_initializer.py 프로젝트: allenwind/word-char-hybrid-embedding

# 字词混合Embedding
# 93.5%+

# 处理数据
X, y, classes = load_THUCNews_title_label()
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    train_size=0.8,
                                                    random_state=7322)

num_classes = len(classes)
# 转化成字id
print("tokenize...")
tokenizer = Tokenizer(mintf=32, cutword=True)
tokenizer.fit_in_parallel(X_train)

# maxlen = find_best_maxlen(X_train, mode="max")
maxlen = 48


def pad(X, maxlen):
    return sequence.pad_sequences(X,
                                  maxlen=maxlen,
                                  dtype="int32",
                                  padding="post",
                                  truncating="post",
                                  value=0)


def create_dataset(X, y, maxlen):

예제 #2

파일 보기

파일: dataset.py 프로젝트: allenwind/word2vec-in-tensorflow2.0

    if shuffle:
        random.shuffle(files)
    for file in files[:limit]:
        with open(file, encoding="utf-8") as fd:
            content = fd.read()
        yield preprocess(content)


file = "word_meta.json"
tokenizer = Tokenizer(mintf, processes)
if os.path.exists(file):
    tokenizer.load(file)
else:
    X = load_sentences(limit=None)
    print("tokenize...")
    tokenizer.fit_in_parallel(X)
    tokenizer.save(file)

words = tokenizer.words
word2id = tokenizer.word2id
id2word = {j: i for i, j in word2id.items()}
vocab_size = len(tokenizer)


def create_subsamples(words, subsample_eps=1e-5):
    # 计算降采样表，用于context
    # 参考tf.keras.preprocessing.sequence.make_sampling_table
    total = len(words)
    subsamples = {}
    for i, j in words.items():
        j = j / total