Python Tokenize.create_bi_gram Examples

Programming Language: Python

Class/Type: Tokenize

Method/Function: create_bi_gram

Examples at hotexamples.com: 1

Python Tokenize.create_bi_gram - 1 examples found. These are the top rated real world Python examples of Tokenize.create_bi_gram from package underthesea extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

byWord(18)

byWordAlphaOnly(4)

Tokenize(3)

TokenizeDigits(2)

TokenizeIdentifiers(2)

TokenizeKeywords(2)

TokenizeOperators(2)

TokenizeOutWords(2)

TokenizeStrings(2)

TokenizeComments(2)

cleanComments(2)

create_bi_gram(1)

coeficienteSimilaridade(1)

byWordStem(1)

_skip(1)

_skipWhitespaces(1)

_skipToNextLine(1)

_extractToken(1)

TokenizeEndOfStatment(1)

create_mono_gram(1)

Example #1

Show file

def pre_process():
    f = open("mode", "r")
    mode = f.read()
    f.close()

    if (mode == '0'):
        READ_DIR = "clean_train_set"
    elif (mode == '1'):
        READ_DIR = "clean_test_set"

    one_gram = T.create_mono_gram(READ_DIR)
    two_gram = T.create_bi_gram(READ_DIR, one_gram)
    three_gram = T.create_tri_gram(READ_DIR, one_gram)
    n_gram_list1 = []
    READ_DIR = "Data"
    n_gram = one_gram + two_gram + three_gram
    negative_words = get_negative_words(READ_DIR)
    n_gram = remove_empty_tokens(n_gram)
    n_gram = remove_numeric_tokens(n_gram)
    n_gram = remove_non_cap_tokens(n_gram)
    n_gram = remove_negative_tokens(n_gram, negative_words)
    n_gram = remove_mixed_words(n_gram)
    os.chdir('..')
    return n_gram, one_gram