def corretor_string(frase): frase_corrigida = [] tokenizer = Tokenizer() #token_frase = word_tokenize(frase) token_frase = tokenizer.tokenize(tokenizer.clean_text(frase)) #print(f"token_frase: {token_frase}") for palavra in token_frase: if palavra in vocab: frase_corrigida.append(palavra) else: candidatos = [] candidatos += \ [w for w in edit1(palavra) if w in vocab] \ + [w for w in edit2(palavra) if w in vocab] \ + [palavra] candidatos_final = candidatos_ordenado(candidatos) frase_corrigida.append(candidatos_final[0]) frase_corrigida_final = str() for palavra in frase_corrigida: frase_corrigida_final += palavra + " " return print(f"Sua frase corrigida é:{frase_corrigida_final}")
my_file = os.path.join(THIS_FOLDER,"dump_small.jsonln") # Read json file data = [] with open(my_file, 'r') as file: for line in file: data.append(json.loads(line)) print(f'Numero de documentos: {len(data)}') tokenizer = Tokenizer() # Limpando todos os docs all_cleaned_docs = [] for wiki_body in data[:]: all_cleaned_docs.append(tokenizer.clean_text(wiki_body["body"])) #Tokenizando as palavras nltk.download('punkt') #Contando o numero de palavras all_words_per_doc = [] for cleaned_doc in all_cleaned_docs: all_words_per_doc.append(word_tokenize(cleaned_doc)) all_words_per_doc_single = list() for doc in all_words_per_doc: all_words_per_doc_single += set(doc) doc_counts = Counter(all_words_per_doc_single)