def get_words_from_2_sentS(f1, f2): #Tokens, Lowercase sem ascentos, remove pontuação f1 = word_tokenize(deburr(separator_case(f1, " "))) f2 = word_tokenize(deburr(separator_case(f2, " "))) #Remove números f1 = [ x for x in f1 if not (x.isdigit() or x[0] == '-' and x[1:].isdigit()) ] f2 = [ x for x in f2 if not (x.isdigit() or x[0] == '-' and x[1:].isdigit()) ] return f1, f2
def get_stems_from_sent(f1, f2): #Tokens, Lowercase sem ascentos, remove pontuação f1 = word_tokenize(deburr(separator_case(f1, " "))) #Remove números f1 = [ stemmer.stem(x) for x in f1 if not (x.isdigit() or x[0] == '-' and x[1:].isdigit()) ] return f1
def test_separator_case(case, expected): assert _.separator_case(*case) == expected
def get_tokens_from_2_sents(f1, f2): #Tokens, Lowercase sem ascentos, remove pontuação f1 = word_tokenize(deburr(separator_case(f1, " "))) f2 = word_tokenize(deburr(separator_case(f2, " "))) return f1, f2