Python Tokenizer.en_vocab_create примеры использования

Язык программирования: Python

Пространство имен/Пакет: tokenizer

Класс/Тип: Tokenizer

Метод/Функция: en_vocab_create

Примеров на hotexamples.com: 2

Python Tokenizer.en_vocab_create - 2 примера найдено. Это лучшие примеры Python кода для tokenizer.Tokenizer.en_vocab_create, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

Пример #1

Показать файл

Файл: data_augmentation.py Проект: Yuukp/data_augment_for_NMT

    def add_aux_corpus(self):
        src_rare_vocab = rare_vocab_create(self.src_vocab)
        trg_rare_vocab = rare_vocab_create(self.trg_vocab)
        
        #rare_vocabの単語を含む対訳を抽出
        aux_taiyaku = []
        for src in src_rare_vocab:
            aux_taiyaku.append(scraping(src, "en"))

        for trg in trg_rare_vocab:
            aux_taiyaku.append(scraping(trg, "ja"))

        aux_corpus = './../data/aux_taiyaku.tsv'
        f = open(aux_corpus, 'w')
        for s in aux_taiyaku:
            f.write(s+'\n')
        f.close()

        PrepareData.extract_each_sentence(aux_corpus, './../data/ja_aux_sentences.tsv', 'ja')
        PrepareData.extract_each_sentence(aux_corpus, './../data/en_aux_sentences.tsv', 'en')

        #aux_corpusについてもvocabを作成
        aux_src_vocab = Tokenizer.en_vocab_create('./../data/en_aux_sentences.tsv')
        aux_trg_vocab = Tokenizer.ja_vocab_create('./../data/ja_aux_sentences.tsv')

        #vocabにない、かつaux_vocabにおいてもfreq50未満の単語　が含まれている文をaux_corpusから削除
        no_use_src_vocab = rare_vocab_create(aux_src_vocab)
        no_use_trg_vocab = rare_vocab_create(aux_trg_vocab)

        for i in range(len(no_use_src_vocab)):
            if no_use_src_vocab[i] in self.src_vocab.keys():
                del no_use_src_vocab[i]

        for i in range(len(no_use_trg_vocab)):
            if no_use_trg_vocab[i] in self.trg_vocab.keys():
                del no_use_trg_vocab[i]

        no_use_vocab = no_use_src_vocab + no_use_trg_vocab
        for j in range(len(aux_taiyaku)):
            for word in no_use_vocab:
                if word in aux_taiyaku[j]:
                    del aux_taiyaku[j]
                    break

        f = open(aux_corpus, 'w')
        for s in aux_taiyaku:
            f.write(s+'\n')
        f.close()

        #トレーニングデータにaux_corpusを追加
        PrepareData.extract_each_sentence(aux_corpus, './../data/ja_sentences.tsv', 'ja')
        PrepareData.extract_each_sentence(aux_corpus, './../data/en_sentences.tsv', 'en')

Пример #2

Показать файл

Файл: data_augmentation.py Проект: Yuukp/data_augment_for_NMT

 def __init__(self):
     self.src_vocab = Tokenizer.en_vocab_create()
     self.trg_vocab = Tokenizer.ja_vocab_create()