txt = txt.replace('\n', ' ') txt = txt.replace('\r', ' ') doc = Document(datet, i['title'], author, txt, i['id']) corpus.add_doc(doc) #Chercher dans le corpus le mot passer en paramètre #Affichage des lignes ou le mot est apparue #corpus.search("covid-19") #creation d'une nouvelle liste qui contient les différents mots nettoyer. all_doc = [] for i in range(len(corpus.get_coll())): all_doc.append(corpus.get_doc(i).get_text().split()) #creation de la matrice de co-occurence word 2 word x = corpus.prepapre_to_matrix() # cration d'une liste en utilisants plusieurs listes data = list(itertools.chain.from_iterable(x)) print("######################## Les WORDS #########################") print(data) #constructionde la matrice de co-occurence avec vocab contenant des mots matrix, vocab_index = Corpus.generate_co_occurrence_matrix(data) #transformation de la matrice en dataframe data_matrix = pd.DataFrame(matrix, index=vocab_index, columns=vocab_index) print( "######################## Matrice de Co Ocurrence #########################" ) print(data_matrix) #sauvegarde de la matrice en csv