コード例 #1
0
ファイル: db_processing_net.py プロジェクト: jphcoi/MLMTC
nb_sequences = Nb_rows/size_seq
billets_id=[]
ngramme_billets_fit=[]
ngrammes_auteurs_fit={}
formes={}

#for x in range(nb_sequences+1):
for x in range(nb_sequences+1):
	lim_d = str(size_seq*x)
	if x<nb_sequences:
		duration = str(size_seq)
	else:
		duration = str(size_seq)
		#duration = str(Nb_rows - size_seq*x)
	#on extrait les champs contenus lemmatises et id de la table
	contenu = fonctions_bdd.select_bdd_table_limite(name_bdd,'billets','id,content_lemmatise,content,auteur_id',requete,lim_d+','+duration)
	#on indexe chaque billet et on recupere un triplet qui donne: la liste des ngrammes pour chaque billet, la liste des index des ngrammes pour chaque billet, et l'id des billets - ce script permet egalement de calculer les formes des n-lemmes.
	include=1 #le parametre include permet d'activer ou non l'overlap de lemmes dans le comptage: si 1, les nicolas sarkozy ne forment pas de sarkozy 
	ngramme_billets_fit_x,billets_id_x,formes_x,ngrammes_auteurs_fit_x = text_processing.indexer_billet(contenu,ngrammes,maxTermLength,include)
	billets_id = billets_id + billets_id_x
	ngramme_billets_fit = ngramme_billets_fit + ngramme_billets_fit_x
	formes=fonctions_lib.merge(formes, formes_x, lambda x,y: fonctions_lib.merge(x,y,lambda x,y:x+y))
	ngrammes_auteurs_fit=fonctions_lib.merge(ngrammes_auteurs_fit,ngrammes_auteurs_fit_x,lambda x,y : extension(x,y))
	print "    + billets numéros "+ str(int(lim_d)+1)+ " à "+  str(int(lim_d)+int(duration)) +" indexés (sur "+ str(Nb_rows) +")"
	
	
dictionnaire_treetagged__formes_name = path_req  + "Treetagger_n-lemmes_formes.txt"  
dictionnaire_treetagged__formemajoritaire_name = path_req  + "Treetagger_n-lemmes_formemajoritaire.txt"
text_processing.extraire_forme_majoritaire(0,formes,dictionnaire_treetagged__formes_name,dictionnaire_treetagged__formemajoritaire_name)

N  = float(len(ngramme_billets_fit))
コード例 #2
0
ファイル: agency.py プロジェクト: jphcoi/MLMTC
billets_id=[]


target = ['NN_network***NP_network***NP_networks']
target = ['NN_gene***NP_gene***NN_genetics***genomic***genomics***NN_genome***genome']
target = ['NN_protein***protein***proteins']
target = ["NN_cow"]#,"pig","NN_sheep","NN_cattle","NN_chicken","NN_poultry","NN_hen","NN_pet","NN_dog","NN_cat"]
#target = ['NN_phosphatase NN_gene']

agency_name=path_req + 'agency_'+str(target)+'.csv'
agency_name_out=path_req + 'agency_out_'+str(target)+'.csv'
agency_name2=path_req + 'agency_'+str(target)+'.txt'
agency_name_out2=path_req + 'agency_out_'+str(target)+'.txt'
file_oui = open(agency_name,'w')
file_no = open(agency_name_out,'w')
file_oui2 = open(agency_name2,'w')
file_no2 = open(agency_name_out2,'w')
phrases_ok,phrases_out=[],[]
for x in range(nb_sequences+1):
	print lim_d
	lim_d = str(size_seq*x)
	duration = str(size_seq)
	#on extrait les champs contenus lemmatises et id de la table
	contenu = fonctions_bdd.select_bdd_table_limite(name_bdd,'billets','id,content_lemmatise,content,jours,title,site,categorie1',requete,lim_d+','+duration)
	include=1 #le parametre include permet d'activer ou non l'overlap de lemmes dans le comptage: si 1, les nicolas sarkozy ne forment pas de sarkozy 
	phrase_ok,phrase_out =  agency(target,contenu)
	phrases_ok=phrases_ok+phrase_ok
	phrases_out=phrases_out+phrase_out
ecrire_phrases(phrases_ok,file_oui,file_oui2)
ecrire_phrases(phrases_out,file_no,file_no2)