Python Tokenizer.fit_on_texts Beispiele

Programmiersprache: Python

Namespace / Paketname: Tokenizer

Klasse / Typ: Tokenizer

Methode / Funktion: fit_on_texts

Beispiele auf hotexamples.com: 2

Python Tokenizer.fit_on_texts - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die Tokenizer.Tokenizer.fit_on_texts, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Tokenizer(30)

advance(11)

getTokens(6)

has_more_tokens(6)

identifier(4)

key_word(3)

intVal(3)

getVocabSize(2)

fit_on_texts(2)

get_next_token(2)

get_value(2)

nextToken(2)

fit_transform(2)

getData(2)

get_next_non_whitespace(2)

is_operator(2)

joinSentences(1)

insert(1)

pop(1)

prepend(1)

toXML(1)

hasMoreTokens(1)

get_word_freq(1)

look2ahead(1)

get_tokens_from_file(1)

get_text_tokens(1)

lookahead(1)

tokenizeStr(1)

nltk_tokenize(1)

Tokenize(1)

getWordToInd(1)

context_window(1)

anchorScore(1)

build(1)

calculate_similarity(1)

ckip(1)

clean(1)

cleanText(1)

clear(1)

common_mentions(1)

common_terms(1)

convert_ids_to_tokens(1)

getWordMap(1)

execute(1)

generate(1)

getFixed(1)

getIndToWord(1)

getIterator(1)

getIterlimit(1)

getTestInput(1)

Beispiel #1

Datei anzeigen

Datei: read_ptb_data.py Projekt: zhaoyang-star/Anakin

 def read(self):
     # print('!',sys.argv[0])
     # print(os.path.dirname(__file__)+'/data/ptb.valid.txt')
     file=open(os.path.dirname(__file__)+'/data/ptb.valid.txt')
     lines=file.readlines()
     tokenizer=Tokenizer(9999,oov_token=1)
     tokenizer.fit_on_texts(lines)
     self.seqs=tokenizer.texts_to_sequences(lines)
     return self.seqs

Beispiel #2

Datei anzeigen

Datei: DataProcessor.py Projekt: shubham0204/Sarcasm_Detection_NLP_TensorFlow

import pandas as pd
import numpy as np
import tensorflow as tf
import pickle
from sklearn.model_selection import train_test_split
from Tokenizer import Tokenizer

data = pd.read_json('raw_data/data.json', lines=True)
raw_text, raw_labels = data['headline'].values[0:10000], data[
    'is_sarcastic'].values[0:10000]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(raw_text)
tokenized_headlines = tokenizer.transform(raw_text)
max_length = max([len(x) for x in tokenized_headlines])
padded_headlines = tf.keras.preprocessing.sequence.pad_sequences(
    tokenized_headlines, maxlen=max_length, padding='post')
with open('glove_embedding/tokenizer.pkl', 'wb') as file:
    pickle.dump(tokenizer, file)

onehot_labels = tf.keras.utils.to_categorical(raw_labels, num_classes=2)

train_features, test_features, train_labels, test_labels = train_test_split(
    np.array(padded_headlines), np.array(onehot_labels), test_size=0.4)

np.save('processed_data/x.npy', train_features)
np.save('processed_data/y.npy', train_labels)
np.save('processed_data/test_x.npy', test_features)
np.save('processed_data/test_y.npy', test_labels)