Python tokenize 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: dl4nlp.preprocessing

메소드/함수: tokenize

hotexamples.com에서의 예제들: 5

Python tokenize - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 dl4nlp.preprocessing.tokenize에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: word2vec.py 프로젝트: SigmaQuan/dl4nlp

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('input_file', type=argparse.FileType())
    parser.add_argument('output_file', type=argparse.FileType('w'))
    parser.add_argument('vector_size', type=int)
    parser.add_argument('context_size', type=int)
    parser.add_argument('vocabulary_size', type=int)
    args = parser.parse_args()

    sentences = list(lower(tokenize(args.input_file)))
    dictionary = build_dictionary(sentences, args.vocabulary_size)
    indices = to_indices(sentences, dictionary)
    inputs, outputs = create_context(indices, args.context_size)

    cost_gradient = bind_cost_gradient(skip_gram_cost_gradient, inputs, outputs, sampler=get_stochastic_sampler(100))
    initial_parameters = np.random.normal(size=(2, len(dictionary) + 1, args.vector_size))
    parameters, cost_history = gradient_descent(cost_gradient, initial_parameters, 10000)
    input_vectors, output_vectors = parameters
    word_vectors = input_vectors + output_vectors
    sorted_pairs = sorted(dictionary.items(), key=operator.itemgetter(1))
    words = [word for word, index in sorted_pairs]

    for word in words:
        vector = word_vectors[dictionary[word]]
        vector_string = ' '.join(str(element) for element in vector)
        print(word, vector_string, file=args.output_file)

예제 #2

파일 보기

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('input_file', type=argparse.FileType())
    parser.add_argument('output_file', type=argparse.FileType('w'))
    parser.add_argument('vector_size', type=int)
    parser.add_argument('context_size', type=int)
    parser.add_argument('vocabulary_size', type=int)
    args = parser.parse_args()

    sentences = list(lower(tokenize(args.input_file)))
    dictionary = build_dictionary(sentences, args.vocabulary_size)
    indices = to_indices(sentences, dictionary)
    inputs, outputs = create_context(indices, args.context_size)

    cost_gradient = bind_cost_gradient(skip_gram_cost_gradient,
                                       inputs,
                                       outputs,
                                       sampler=get_stochastic_sampler(100))
    initial_parameters = np.random.normal(size=(2, len(dictionary) + 1,
                                                args.vector_size))
    parameters, cost_history = gradient_descent(cost_gradient,
                                                initial_parameters, 10000)
    input_vectors, output_vectors = parameters
    word_vectors = input_vectors + output_vectors
    sorted_pairs = sorted(dictionary.items(), key=operator.itemgetter(1))
    words = [word for word, index in sorted_pairs]

    for word in words:
        vector = word_vectors[dictionary[word]]
        vector_string = ' '.join(str(element) for element in vector)
        print(word, vector_string, file=args.output_file)

예제 #3

파일 보기

파일: train_nplm.py 프로젝트: SigmaQuan/dl4nlp

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('input_file', type=argparse.FileType())
    parser.add_argument('output_file', type=argparse.FileType('wb'))
    parser.add_argument('vocabulary_size', type=int)
    parser.add_argument('context_size', type=int)
    parser.add_argument('feature_size', type=int)
    parser.add_argument('hidden_size', type=int)
    parser.add_argument('iterations', type=int)
    args = parser.parse_args()

    sentences = list(prepend_caret(lower(tokenize(args.input_file))))
    nplm = NPLM(args.vocabulary_size, args.feature_size, args.context_size, args.hidden_size)
    nplm.train(sentences, args.iterations)
    pickle.dump(nplm, args.output_file)

예제 #4

파일 보기

파일: train_nplm.py 프로젝트: colinsongf/dl4nlp-1

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('input_file', type=argparse.FileType())
    parser.add_argument('output_file', type=argparse.FileType('wb'))
    parser.add_argument('vocabulary_size', type=int)
    parser.add_argument('context_size', type=int)
    parser.add_argument('feature_size', type=int)
    parser.add_argument('hidden_size', type=int)
    parser.add_argument('iterations', type=int)
    args = parser.parse_args()

    sentences = list(prepend_caret(lower(tokenize(args.input_file))))
    nplm = NPLM(args.vocabulary_size, args.feature_size, args.context_size,
                args.hidden_size)
    nplm.train(sentences, args.iterations)
    pickle.dump(nplm, args.output_file)

예제 #5

파일 보기

 def test_tokenize(self):
     lines = ['I am beautiful.', ' !?']
     actual = list(tokenize(lines))
     expected = [['I', 'am', 'beautiful']]
     self.assertSequenceEqual(expected, actual)