Python Tokenizer.getVocabSize Examples

Programming Language: Python

Namespace/Package Name: Tokenizer

Class/Type: Tokenizer

Method/Function: getVocabSize

Examples at hotexamples.com: 2

Python Tokenizer.getVocabSize - 2 examples found. These are the top rated real world Python examples of Tokenizer.Tokenizer.getVocabSize extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Tokenizer(30)

advance(11)

getTokens(6)

has_more_tokens(6)

identifier(4)

key_word(3)

intVal(3)

getVocabSize(2)

fit_on_texts(2)

get_next_token(2)

get_value(2)

nextToken(2)

fit_transform(2)

getData(2)

get_next_non_whitespace(2)

is_operator(2)

joinSentences(1)

insert(1)

pop(1)

prepend(1)

toXML(1)

hasMoreTokens(1)

get_word_freq(1)

look2ahead(1)

get_tokens_from_file(1)

get_text_tokens(1)

lookahead(1)

tokenizeStr(1)

nltk_tokenize(1)

Tokenize(1)

getWordToInd(1)

context_window(1)

anchorScore(1)

build(1)

calculate_similarity(1)

ckip(1)

clean(1)

cleanText(1)

clear(1)

common_mentions(1)

common_terms(1)

convert_ids_to_tokens(1)

getWordMap(1)

execute(1)

generate(1)

getFixed(1)

getIndToWord(1)

getIterator(1)

getIterlimit(1)

getTestInput(1)

Example #1

Show file

File: TrainRNN.py Project: JacobyJoukema/Fakespeare

def testTrain ():
    print ("Starting Test")
    np.random.seed(10)
    print ("Starting Tokenization")
    t = Tokenizer(vocabSize=15000)
    print ("Tokenizer Complete")
    vocabSize = t.getVocabSize()
    print ("Vocab Size: " + str(vocabSize))
    xTrain, yTrain = t.getData()

    print ("Constructing Model")
    model = RNN(vocabSize)
    print ("Starting Timer")
    start = time.clock()
    model.sgdStep(xTrain[10], yTrain[10], .005)
    end = time.clock()
    print ("One Step Time: " + str(end-start))

    print ("Starting Training")
    reset = open ("Data/Log.txt", "w")
    reset.write("")
    losses = trainWithSGD(model,xTrain, yTrain, cycles=50, evalAfterLoss=1)
    save("Data/Fakespeare.npz", model)

Example #2

Show file

File: Generator.py Project: JacobyJoukema/Fakespeare

 def __init__(self, fileName):
     t = Tokenizer()
     self.wordToInd = t.getWordToInd()
     self.indexToWord = t.getIndToWord()
     self.model = RNN(t.getVocabSize())
     load(fileName, self.model)