def main ( archivo, archivo_stopwords ): texto = lector.leer_archivo(archivo) lista_palabras = texto.split(" ") total = len(lista_palabras) print('TOTALES', total) stopwords = lector.leer_stopwords(archivo_stopwords) dpc = dict() dps = dict() for palabra in lista_palabras: p = palabra.lower() if p in stopwords: #es stopword? if p in dps: #Ya existe? dps[p] += 1 #agregamos 1 else: dps[p] = 1 #inicial con 1 else: if p in dpc: dpc[p] += 1 else: dpc[p] = 1 suma_palabras_clave = suma_diccionario(dpc) suma_palabras_stop = suma_diccionario(dps) listadpc = imprime_diccionario(dpc) listadps = imprime_diccionario(dps) print ("Las claves son", suma_palabras_clave) print("Las stopwords son", suma_palabras_stop) unicadpc = sumalista(listadpc) unicadps = sumalista(listadps) print("Claves unicas", unicadpc) print("Stop unicas", unicadps) porDPC= porcentaje((total), unicadpc) porDPS = porcentaje((total), unicadps) print('% claves unicas', porDPC) print('% sw unicas', porDPS)
def contar(archivo, archivo_stopwords): #texto = lector.leer_archivo(archivo) #lista= texto.split(" ") #totalpalabras= len(lista) #return totalpalabras texto = lector.leer_archivo(archivo) lista_palabras = texto.split(" ") total = len(lista_palabras) stopwords = lector.leer_stopwords(archivo_stopwords) #print(stopwords) dpc = dict() #dicc.palabras clave dps = dict() #dicc.palabras stopwords for palabra in lista_palabras: p = palabra.lower().strip(".,") if p in stopwords: #es stopword? if p in dps: #ya eiste? dps[p] += 1 #agregamos else: dps[p] = 1 #inicial con 1 else: if p in dpc: #ya existe? dpc[p] += 1 #agregamos 1 else: dpc[p] = 1 #creamos con 1 print("palabras clave", len(dpc)) print("palabras stopwords", len(dps)) print("Total: ", total)
def contar(archivo,stopwords_url): texto = lector.leer_archivo(archivo) #dicc = dict() # se crea un diccionario para facilitar el contar #dicc2 = dict() lista_palabras = texto.split(" ") total = lista_palabras stopwords = lector.leer_stopwords(stopwords_url) #palabras_clave = texto.split(" ") dpc = dict() #dicc.palabras clave dps = dict() #dicc.palabras stopwords for palabra in lista_palabras: # ignoraremos los puntos y comas de las palabras p = palabra.lower().strip(",.") if p in stopwords: #es stopwords? if p in dps: #ya existe? dps[p] += 1 #agregamos 1 else: # si no, se creara dps[p] = 1 #inicial con 1 else: if p in dpc: #ya existe? dpc[p] += 1 #agregamos 1 else: dpc[p] = 1 #creamos con 1 print(len(dps),"Palabras stropwords") #imprime el numero de stopwords print(len(dpc),"Palabras clave") #imprime las palabras clave print(len(total),"Palabras totales") #escribe las palabras totales en el archivo return total
def main(archivo,archivo_stopwords): texto = lector.leer_archivo(archivo) stopwords= lector.leer_stopwords(archivo_stopwords) print(stopwords) contar(texto,stopwords)
def main(archivo, archivo_stopwords, incio, cuenta): texto = lector.leer_archivo(archivo) cita = obten_cita(texto, inicio, cuenta) print("cita:", cita) stopwords = lector.leer_stopwords(archivo_stopwords) contar_palabras.contar(cita, archivo_stopwords)
def main(archivo, inicio, conteo, archivo_stopwords): texto = lector.leer_archivo(archivo) cita = obtenCita(texto, inicio, conteo) print("cita: ", cita) stopwords = lector.leer_stopwords(archivo_stopwords) contar_palabras.main(cita, stopwords)
def contar_stopwords(archivo_stopwords): set_texto = lector.leer_stopwords(archivo_stopwords) return set_texto
def main( archivo, inicio,cuenta ): texto=lector.leer_archivo(archivo) cita=obten_cita(texto,inicio,cuenta) print("Cita: ",cita) stopwords=lector.leer_stopwords("/home/andromeda/gilberto/spanish_stopwords.txt") contar_palabra.contar(cita,stopwords)