コード例 #1
0
ファイル: text_core.py プロジェクト: mar71ns/ASSIN-UFV
def get_words_from_2_sentS(f1, f2):
    #Tokens, Lowercase sem ascentos, remove pontuação
    f1 = word_tokenize(deburr(separator_case(f1, " ")))
    f2 = word_tokenize(deburr(separator_case(f2, " ")))
    #Remove números
    f1 = [
        x for x in f1 if not (x.isdigit() or x[0] == '-' and x[1:].isdigit())
    ]
    f2 = [
        x for x in f2 if not (x.isdigit() or x[0] == '-' and x[1:].isdigit())
    ]
    return f1, f2
コード例 #2
0
ファイル: text_core.py プロジェクト: mar71ns/ASSIN-UFV
def get_stems_from_sent(f1, f2):
    #Tokens, Lowercase sem ascentos, remove pontuação
    f1 = word_tokenize(deburr(separator_case(f1, " ")))
    #Remove números
    f1 = [
        stemmer.stem(x) for x in f1
        if not (x.isdigit() or x[0] == '-' and x[1:].isdigit())
    ]
    return f1
コード例 #3
0
ファイル: test_strings.py プロジェクト: eRajsh/pydash
def test_separator_case(case, expected):
    assert _.separator_case(*case) == expected
コード例 #4
0
ファイル: text_core.py プロジェクト: mar71ns/ASSIN-UFV
def get_tokens_from_2_sents(f1, f2):
    #Tokens, Lowercase sem ascentos, remove pontuação
    f1 = word_tokenize(deburr(separator_case(f1, " ")))
    f2 = word_tokenize(deburr(separator_case(f2, " ")))
    return f1, f2