예제 #1
0
def corretor_string(frase):
    frase_corrigida = []
    tokenizer = Tokenizer()
    #token_frase =  word_tokenize(frase)
    token_frase = tokenizer.tokenize(tokenizer.clean_text(frase))
    #print(f"token_frase: {token_frase}")
    for palavra in token_frase:
        if palavra in vocab:
            frase_corrigida.append(palavra)
        else:
            candidatos = []
            candidatos += \
                [w for w in edit1(palavra) if w in vocab] \
                + [w for w in edit2(palavra) if w in vocab] \
                + [palavra]
            candidatos_final = candidatos_ordenado(candidatos)
            frase_corrigida.append(candidatos_final[0])

    frase_corrigida_final = str()
    for palavra in frase_corrigida:
        frase_corrigida_final += palavra + " "

    return print(f"Sua frase corrigida é:{frase_corrigida_final}")
예제 #2
0
my_file = os.path.join(THIS_FOLDER,"dump_small.jsonln")
# Read json file
data = []
with open(my_file, 'r') as file:
    for line in file:
        data.append(json.loads(line))
        
print(f'Numero de documentos: {len(data)}')


tokenizer = Tokenizer()

# Limpando todos os docs
all_cleaned_docs = []
for wiki_body in data[:]:
    all_cleaned_docs.append(tokenizer.clean_text(wiki_body["body"]))

#Tokenizando as palavras
nltk.download('punkt')

#Contando o numero de palavras
all_words_per_doc = []
for cleaned_doc in all_cleaned_docs:
    all_words_per_doc.append(word_tokenize(cleaned_doc))

all_words_per_doc_single = list()
for doc in all_words_per_doc:
    all_words_per_doc_single += set(doc)

doc_counts = Counter(all_words_per_doc_single)