Python Tokenizer.fit_on_texts 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: Tokenizer

클래스/타입: Tokenizer

메소드/함수: fit_on_texts

hotexamples.com에서의 예제들: 2

Python Tokenizer.fit_on_texts - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Tokenizer.Tokenizer.fit_on_texts에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

advance(11)

getTokens(6)

has_more_tokens(6)

identifier(4)

key_word(3)

intVal(3)

getVocabSize(2)

fit_on_texts(2)

get_next_token(2)

get_value(2)

nextToken(2)

fit_transform(2)

getData(2)

get_next_non_whitespace(2)

is_operator(2)

joinSentences(1)

insert(1)

pop(1)

prepend(1)

toXML(1)

hasMoreTokens(1)

get_word_freq(1)

look2ahead(1)

get_tokens_from_file(1)

get_text_tokens(1)

lookahead(1)

tokenizeStr(1)

nltk_tokenize(1)

Tokenize(1)

getWordToInd(1)

context_window(1)

anchorScore(1)

build(1)

calculate_similarity(1)

ckip(1)

clean(1)

cleanText(1)

clear(1)

common_mentions(1)

common_terms(1)

convert_ids_to_tokens(1)

getWordMap(1)

execute(1)

generate(1)

getFixed(1)

getIndToWord(1)

getIterator(1)

getIterlimit(1)

getTestInput(1)

예제 #1

파일 보기

파일: read_ptb_data.py 프로젝트: zhaoyang-star/Anakin

 def read(self):
     # print('!',sys.argv[0])
     # print(os.path.dirname(__file__)+'/data/ptb.valid.txt')
     file=open(os.path.dirname(__file__)+'/data/ptb.valid.txt')
     lines=file.readlines()
     tokenizer=Tokenizer(9999,oov_token=1)
     tokenizer.fit_on_texts(lines)
     self.seqs=tokenizer.texts_to_sequences(lines)
     return self.seqs

예제 #2

파일 보기

파일: DataProcessor.py 프로젝트: shubham0204/Sarcasm_Detection_NLP_TensorFlow

import pandas as pd
import numpy as np
import tensorflow as tf
import pickle
from sklearn.model_selection import train_test_split
from Tokenizer import Tokenizer

data = pd.read_json('raw_data/data.json', lines=True)
raw_text, raw_labels = data['headline'].values[0:10000], data[
    'is_sarcastic'].values[0:10000]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(raw_text)
tokenized_headlines = tokenizer.transform(raw_text)
max_length = max([len(x) for x in tokenized_headlines])
padded_headlines = tf.keras.preprocessing.sequence.pad_sequences(
    tokenized_headlines, maxlen=max_length, padding='post')
with open('glove_embedding/tokenizer.pkl', 'wb') as file:
    pickle.dump(tokenizer, file)

onehot_labels = tf.keras.utils.to_categorical(raw_labels, num_classes=2)

train_features, test_features, train_labels, test_labels = train_test_split(
    np.array(padded_headlines), np.array(onehot_labels), test_size=0.4)

np.save('processed_data/x.npy', train_features)
np.save('processed_data/y.npy', train_labels)
np.save('processed_data/test_x.npy', test_features)
np.save('processed_data/test_y.npy', test_labels)