Python Tokenizer.fit_on_sequencesの例

プログラミング言語: Python

名前空間/パッケージ名: tensorflow.keras.preprocessing.text

クラス/型: Tokenizer

メソッド/関数: fit_on_sequences

hotexamples.comのコード掲載数: 2

Python Tokenizer.fit_on_sequences - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtensorflow.keras.preprocessing.text.Tokenizer.fit_on_sequencesの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Tokenizer(30)

fit_on_texts(30)

sequences_to_texts(24)

sequences_to_matrix(20)

get_config(6)

__init__(5)

index_word(3)

fit_on_text(3)

fit_on_sequences(2)

decode(1)

encode(1)

filters(1)

fit(1)

convert_tokens_to_ids(1)

index_docs(1)

max_length(1)

num_words(1)

コード例 #1

ファイルを表示

    def tokenize(self, writeDictionaryToCsv=False):
        print('Tokenizing')
        print('adding n-grams')
        self.trainData = self.addNgGrams(self.trainData)
        self.testData = self.addNgGrams(self.testData)

        all_reviews = self.trainData.append(self.testData)
        tokenizer = Tokenizer(num_words=30000)
        print('fitting')
        tokenizer.fit_on_texts(all_reviews)
        tokenizer.fit_on_sequences(all_reviews)

        print('texts_to_sequences')
        self.trainData = tokenizer.texts_to_sequences(self.trainData)
        self.testData = tokenizer.texts_to_sequences(self.testData)
        print('sequences_to_matrix')
        self.trainData = tokenizer.sequences_to_matrix(self.trainData)
        self.testData = tokenizer.sequences_to_matrix(self.testData)

        all_reviews = np.vstack((self.trainData, self.testData))

        #does not work with svm no time to change code
        self.trainData = self.trainData / self.trainData.sum(axis=1)[:, None]
        self.testData = self.testData / self.testData.sum(axis=1)[:, None]

        if (writeDictionaryToCsv):
            self.ExportFeatureSpace(tokenizer)

        print('Finished tokenizing')

コード例 #2

ファイルを表示

    def closure(mu):
        (x_train, y_train), (_, _) = imdb.load_data()
        tokenizer = Tokenizer(num_words=5000)
        tokenizer.fit_on_sequences(x_train)
        x_train = tokenizer.sequences_to_matrix(x_train, "tfidf")
        # Note: svd_solver=full is needed on GPU server
        x_train = PCA(n_components=100,
                      svd_solver='full').fit_transform(x_train)
        ds = {"data": x_train, "target": y_train}

        # Apply noise and return
        res = preprocess_and_noise(dataset=ds, mu=mu)
        return res