Python Tokenizer.fit_on_sequences 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tensorflow.keras.preprocessing.text

클래스/타입: Tokenizer

메소드/함수: fit_on_sequences

hotexamples.com에서의 예제들: 2

Python Tokenizer.fit_on_sequences - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tensorflow.keras.preprocessing.text.Tokenizer.fit_on_sequences에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

fit_on_texts(30)

sequences_to_texts(24)

sequences_to_matrix(20)

get_config(6)

__init__(5)

index_word(3)

fit_on_text(3)

fit_on_sequences(2)

decode(1)

encode(1)

filters(1)

fit(1)

convert_tokens_to_ids(1)

index_docs(1)

max_length(1)

num_words(1)

예제 #1

파일 보기

    def tokenize(self, writeDictionaryToCsv=False):
        print('Tokenizing')
        print('adding n-grams')
        self.trainData = self.addNgGrams(self.trainData)
        self.testData = self.addNgGrams(self.testData)

        all_reviews = self.trainData.append(self.testData)
        tokenizer = Tokenizer(num_words=30000)
        print('fitting')
        tokenizer.fit_on_texts(all_reviews)
        tokenizer.fit_on_sequences(all_reviews)

        print('texts_to_sequences')
        self.trainData = tokenizer.texts_to_sequences(self.trainData)
        self.testData = tokenizer.texts_to_sequences(self.testData)
        print('sequences_to_matrix')
        self.trainData = tokenizer.sequences_to_matrix(self.trainData)
        self.testData = tokenizer.sequences_to_matrix(self.testData)

        all_reviews = np.vstack((self.trainData, self.testData))

        #does not work with svm no time to change code
        self.trainData = self.trainData / self.trainData.sum(axis=1)[:, None]
        self.testData = self.testData / self.testData.sum(axis=1)[:, None]

        if (writeDictionaryToCsv):
            self.ExportFeatureSpace(tokenizer)

        print('Finished tokenizing')

예제 #2

파일 보기

    def closure(mu):
        (x_train, y_train), (_, _) = imdb.load_data()
        tokenizer = Tokenizer(num_words=5000)
        tokenizer.fit_on_sequences(x_train)
        x_train = tokenizer.sequences_to_matrix(x_train, "tfidf")
        # Note: svd_solver=full is needed on GPU server
        x_train = PCA(n_components=100,
                      svd_solver='full').fit_transform(x_train)
        ds = {"data": x_train, "target": y_train}

        # Apply noise and return
        res = preprocess_and_noise(dataset=ds, mu=mu)
        return res