def contruir_corpus_experimento(self): '''Contruye el dataset''' c = Corpus() if self.tamanio == 'BI': busquedaInicial=leer_archivo(open(self.directorio+'bi.csv','r'), eliminar_primero=True) clasificados = leer_archivo(open(self.directorio+'clasificados.csv', 'r'),eliminar_primero=True) elif self.tamanio == 'Univ': busquedaInicial=leer_archivo(open(self.directorio++'dataPapers.csv','r'), eliminar_primero=True) clasificados = leer_archivo(open(self.directorio++'validacion.csv', 'r'),eliminar_primero=True) conjuntoA=leer_archivo(open(self.directorio+'a.csv','r'),eliminar_primero=True) conjuntoS=leer_archivo(open(self.directorio+'s.csv','r'),eliminar_primero=True) conjuntoJ=leer_archivo(open(self.directorio+'j.csv','r'),eliminar_primero=True) conjuntoO=leer_archivo(open(self.directorio+'o.csv','r'),eliminar_primero=True) xmls = self.obtener_xmls() #Archivos con los eid de los papers que van a conformar la red ##archivo_papers_red = dividir_archivo_fecha(open(self.directorio+'relevantes.csv'), open(self.directorio+'relevantesFecha.csv'), 2013) archivo_papers_red = open(self.directorio+'bi.csv') #Lista con los eid de los papers que van a conformar la red lista_papers_red = leer_archivo(archivo_papers_red, eliminar_primero=True) #Autores-papers de la red dicci_contruir_red = obtener_autores(xmls, lista_papers_red) #Aqué deberían estar todos los autores-papers del corpus dicci_todos_autores_papers = obtener_autores(xmls, leer_archivo(open(self.directorio+'bi.csv'), eliminar_primero=True)) #c.construir_corpus(self.nombre_corpus, busquedaInicial, conjuntoA, conjuntoS, conjuntoJ, conjuntoO, clasificados, # conjuntos_red=dicci_contruir_red, diccionario_todos_autores=dicci_todos_autores_papers) c.construir_corpus(self.nombre_corpus, busquedaInicial, conjuntoA, conjuntoS, conjuntoJ, conjuntoO, clasificados)
def clasificar_docs(self): c = Corpus() clasificacion_ficticia = ['1']*len(self.clasificar) #clasificados = leer_archivo(open(directorio+'validacion.csv', 'r'),eliminar_primero=True) nombre_entrenamiento = self.unidad_academica+'CorpusTraining.csv' nombre_prueba = self.unidad_academica+'CorpusTest.csv' prueba = c.construir_corpus(nombre_prueba, self.clasificar, self.conjunto_a, self.conjunto_s, self.conjunto_j, self.conjunto_o, clasificacion_ficticia) nv = NaiveBayes(open(nombre_entrenamiento), open(nombre_prueba)) nv.medidas() eids_relevantes = self.get_eids_relevantes(nv.clasificadosNB) return eids_relevantes