Python Tokenizer.LoadStrategyの例

プログラミング言語: Python

名前空間/パッケージ名: tokenizer

クラス/型: Tokenizer

メソッド/関数: LoadStrategy

hotexamples.comのコード掲載数: 3

Python Tokenizer.LoadStrategy - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtokenizer.Tokenizer.LoadStrategyの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

コード例 #1

ファイルを表示

    def create_model_from_text(self, text_path):
        """
        Создание цепи Маркова из текста

        :param text_path: путь к тексту
        :type text_path: str
        :return: модель цепи Маркова
        :rtype: dict
        """
        markov_model = dict()
        # Проверка наличия уже обученой модели
        print('-READING TEXT')
        data = self.tokenizer.text_to_int(read_files(text_path).split())
        self.tokenizer.change_strategy(Tokenizer.LoadStrategy(self.tokens))
        range_len = len(data) - self.window_size
        for current_word in range(0, len(data) - self.window_size):
            print("creating: {}/{}".format(current_word + 1, range_len))
            # Создаем окно
            window = tuple(data[current_word:current_word + self.window_size])
            # Добавляем в словарь
            if window in markov_model:
                # Присоединяем к уже существующему распределению
                markov_model[window].update(
                    [data[current_word + self.window_size]])
            else:
                markov_model[window] = Dictogram(
                    [data[current_word + self.window_size]])
        return markov_model

コード例 #2

ファイルを表示

        def __init__(self, database, window_size):
            """

            :param window_size:
            :type window_size: int
            """
            self.model = MarkovChain(database, window_size)
            self.tokenizer = Tokenizer(Tokenizer.LoadStrategy(self.model.tokens))
            self.model.set_tokenizer(self.tokenizer)

コード例 #3

ファイルを表示

        def __init__(self, database, text_path, window_size):
            """

            :param text_path: путь к датасету
            :type text_path: str
            :param window_size: размер окна
            :type window_size: int
            """
            super().__init__(database, text_path, window_size)
            self.tokenizer = Tokenizer(Tokenizer.LoadStrategy(self.model.tokens))
            self.model.set_tokenizer(self.tokenizer)
            self.model.counter.update('tokens')
            self.retrain()