nb_sequences = Nb_rows/size_seq billets_id=[] ngramme_billets_fit=[] ngrammes_auteurs_fit={} formes={} #for x in range(nb_sequences+1): for x in range(nb_sequences+1): lim_d = str(size_seq*x) if x<nb_sequences: duration = str(size_seq) else: duration = str(size_seq) #duration = str(Nb_rows - size_seq*x) #on extrait les champs contenus lemmatises et id de la table contenu = fonctions_bdd.select_bdd_table_limite(name_bdd,'billets','id,content_lemmatise,content,auteur_id',requete,lim_d+','+duration) #on indexe chaque billet et on recupere un triplet qui donne: la liste des ngrammes pour chaque billet, la liste des index des ngrammes pour chaque billet, et l'id des billets - ce script permet egalement de calculer les formes des n-lemmes. include=1 #le parametre include permet d'activer ou non l'overlap de lemmes dans le comptage: si 1, les nicolas sarkozy ne forment pas de sarkozy ngramme_billets_fit_x,billets_id_x,formes_x,ngrammes_auteurs_fit_x = text_processing.indexer_billet(contenu,ngrammes,maxTermLength,include) billets_id = billets_id + billets_id_x ngramme_billets_fit = ngramme_billets_fit + ngramme_billets_fit_x formes=fonctions_lib.merge(formes, formes_x, lambda x,y: fonctions_lib.merge(x,y,lambda x,y:x+y)) ngrammes_auteurs_fit=fonctions_lib.merge(ngrammes_auteurs_fit,ngrammes_auteurs_fit_x,lambda x,y : extension(x,y)) print " + billets numéros "+ str(int(lim_d)+1)+ " à "+ str(int(lim_d)+int(duration)) +" indexés (sur "+ str(Nb_rows) +")" dictionnaire_treetagged__formes_name = path_req + "Treetagger_n-lemmes_formes.txt" dictionnaire_treetagged__formemajoritaire_name = path_req + "Treetagger_n-lemmes_formemajoritaire.txt" text_processing.extraire_forme_majoritaire(0,formes,dictionnaire_treetagged__formes_name,dictionnaire_treetagged__formemajoritaire_name) N = float(len(ngramme_billets_fit))
billets_id=[] target = ['NN_network***NP_network***NP_networks'] target = ['NN_gene***NP_gene***NN_genetics***genomic***genomics***NN_genome***genome'] target = ['NN_protein***protein***proteins'] target = ["NN_cow"]#,"pig","NN_sheep","NN_cattle","NN_chicken","NN_poultry","NN_hen","NN_pet","NN_dog","NN_cat"] #target = ['NN_phosphatase NN_gene'] agency_name=path_req + 'agency_'+str(target)+'.csv' agency_name_out=path_req + 'agency_out_'+str(target)+'.csv' agency_name2=path_req + 'agency_'+str(target)+'.txt' agency_name_out2=path_req + 'agency_out_'+str(target)+'.txt' file_oui = open(agency_name,'w') file_no = open(agency_name_out,'w') file_oui2 = open(agency_name2,'w') file_no2 = open(agency_name_out2,'w') phrases_ok,phrases_out=[],[] for x in range(nb_sequences+1): print lim_d lim_d = str(size_seq*x) duration = str(size_seq) #on extrait les champs contenus lemmatises et id de la table contenu = fonctions_bdd.select_bdd_table_limite(name_bdd,'billets','id,content_lemmatise,content,jours,title,site,categorie1',requete,lim_d+','+duration) include=1 #le parametre include permet d'activer ou non l'overlap de lemmes dans le comptage: si 1, les nicolas sarkozy ne forment pas de sarkozy phrase_ok,phrase_out = agency(target,contenu) phrases_ok=phrases_ok+phrase_ok phrases_out=phrases_out+phrase_out ecrire_phrases(phrases_ok,file_oui,file_oui2) ecrire_phrases(phrases_out,file_no,file_no2)