Exemplo n.º 1
0
def get_words_from_2_sentS(f1, f2):
    #Tokens, Lowercase sem ascentos, remove pontuação
    f1 = word_tokenize(deburr(separator_case(f1, " ")))
    f2 = word_tokenize(deburr(separator_case(f2, " ")))
    #Remove números
    f1 = [
        x for x in f1 if not (x.isdigit() or x[0] == '-' and x[1:].isdigit())
    ]
    f2 = [
        x for x in f2 if not (x.isdigit() or x[0] == '-' and x[1:].isdigit())
    ]
    return f1, f2
Exemplo n.º 2
0
def get_stems_from_sent(f1, f2):
    #Tokens, Lowercase sem ascentos, remove pontuação
    f1 = word_tokenize(deburr(separator_case(f1, " ")))
    #Remove números
    f1 = [
        stemmer.stem(x) for x in f1
        if not (x.isdigit() or x[0] == '-' and x[1:].isdigit())
    ]
    return f1
Exemplo n.º 3
0
def test_separator_case(case, expected):
    assert _.separator_case(*case) == expected
Exemplo n.º 4
0
def get_tokens_from_2_sents(f1, f2):
    #Tokens, Lowercase sem ascentos, remove pontuação
    f1 = word_tokenize(deburr(separator_case(f1, " ")))
    f2 = word_tokenize(deburr(separator_case(f2, " ")))
    return f1, f2