def main(archivo, output): guarda = [] files = open(output, "w") for nombre in archivo: lee = lector.leer_archivo(nombre) guarda.append(lee) for caso in guarda: files.write(caso) files.close() concatenado = lector.leer_archivo(output) print(concatenado)
def contar(archivo, archivo_stopwords): #texto = lector.leer_archivo(archivo) #lista= texto.split(" ") #totalpalabras= len(lista) #return totalpalabras texto = lector.leer_archivo(archivo) lista_palabras = texto.split(" ") total = len(lista_palabras) stopwords = lector.leer_stopwords(archivo_stopwords) #print(stopwords) dpc = dict() #dicc.palabras clave dps = dict() #dicc.palabras stopwords for palabra in lista_palabras: p = palabra.lower().strip(".,") if p in stopwords: #es stopword? if p in dps: #ya eiste? dps[p] += 1 #agregamos else: dps[p] = 1 #inicial con 1 else: if p in dpc: #ya existe? dpc[p] += 1 #agregamos 1 else: dpc[p] = 1 #creamos con 1 print("palabras clave", len(dpc)) print("palabras stopwords", len(dps)) print("Total: ", total)
def contar(archivo,stopwords_url): texto = lector.leer_archivo(archivo) #dicc = dict() # se crea un diccionario para facilitar el contar #dicc2 = dict() lista_palabras = texto.split(" ") total = lista_palabras stopwords = lector.leer_stopwords(stopwords_url) #palabras_clave = texto.split(" ") dpc = dict() #dicc.palabras clave dps = dict() #dicc.palabras stopwords for palabra in lista_palabras: # ignoraremos los puntos y comas de las palabras p = palabra.lower().strip(",.") if p in stopwords: #es stopwords? if p in dps: #ya existe? dps[p] += 1 #agregamos 1 else: # si no, se creara dps[p] = 1 #inicial con 1 else: if p in dpc: #ya existe? dpc[p] += 1 #agregamos 1 else: dpc[p] = 1 #creamos con 1 print(len(dps),"Palabras stropwords") #imprime el numero de stopwords print(len(dpc),"Palabras clave") #imprime las palabras clave print(len(total),"Palabras totales") #escribe las palabras totales en el archivo return total
def test_leer_archivo(self): esperado = ((130.0, (650.0, (99.0, (150.0, (128.0, (302.0, (95.0, (945.0, (368.0, (961.0, None)))))))))), (186.0, (699.0, (132.0, (272.0, (291.0, (331.0, (199.0, (1890.0, (788.0, (1601.0, None))))))))))) observado = lector.leer_archivo("test.csv") self.assertEqual(esperado, observado) self.assertRaises(FileNotFoundError, lector.leer_archivo, "xyz.csv")
def main ( archivo, archivo_stopwords ): texto = lector.leer_archivo(archivo) lista_palabras = texto.split(" ") total = len(lista_palabras) print('TOTALES', total) stopwords = lector.leer_stopwords(archivo_stopwords) dpc = dict() dps = dict() for palabra in lista_palabras: p = palabra.lower() if p in stopwords: #es stopword? if p in dps: #Ya existe? dps[p] += 1 #agregamos 1 else: dps[p] = 1 #inicial con 1 else: if p in dpc: dpc[p] += 1 else: dpc[p] = 1 suma_palabras_clave = suma_diccionario(dpc) suma_palabras_stop = suma_diccionario(dps) listadpc = imprime_diccionario(dpc) listadps = imprime_diccionario(dps) print ("Las claves son", suma_palabras_clave) print("Las stopwords son", suma_palabras_stop) unicadpc = sumalista(listadpc) unicadps = sumalista(listadps) print("Claves unicas", unicadpc) print("Stop unicas", unicadps) porDPC= porcentaje((total), unicadpc) porDPS = porcentaje((total), unicadps) print('% claves unicas', porDPC) print('% sw unicas', porDPS)
def invertir(archivos): contenidos = [] texto = lector.leer_archivo(archivo) palabras = texto.split(" ") for palabra in palabras: contenidos.insert(0, palabra) print(contenidos) return contenidos
def conca_archivos(archivos_new, folder): ''' Se guardan las palabras de los archivos y se juntan en una misma lista ''' contenidos = [] for archivo in archivos_new: texto = lector.leer_archivo(os.path.join(folder,archivo)) contenidos.append(texto) return contenidos
def main(nombres, output): listado=[] for nombre in nombres: texto = lector.leer_archivo(nombre) listado.append(texto) textote = "\n". join(listado) file = open(output,"w") file.write(textote) file.close() print("Se creo el archivo " + output)
def carga_textos(folder,termina): try: lista_textos=[]#lista de contenidos lista_archivos=os.listdir(folder) lista_txt=[archivo for archivo in lista_archivos if archivo.endswith(termina)] #a leer! for archivo in lista_txt: texto=lector.leer_archivo(os.path.join(folder,archivo)) texto_limpio=clean.clean_text(texto) lista_textos.append(texto_limpio) except IOError as e: pirnt(e) lista_textos=[] return lista_textos
def main(folder, inicia, termina, salida): '''Ingresa el folder con la carpeta a buscar, despues por medio de un inicia y termina previamente ingresados, buscara todos los archivos que contengan esas especificaciones salida es el nombre del nuevo archivo a crea. ''' listado_tmp = os.listdir(folder) listado_txt = [archivo for archivo in listado_tmp if archivo.endswith(termina)] listado_episodios = [archivo for archivo in listado_txt if archivo.startswith(inicia)] ''' un endwith y startswith para encontrar el principio y final de una palabra, se guardan los comunes en una lista''' lista = [] for archivo in listado_episodios: texto = lector.leer_archivo(os.path.join(folder,archivo)) lista.append(texto) '''se lee cada uno de los archivos con un for y llamando al lector.py y se agregan los archivos leidos a una lista''' textote = "\n".join(lista) escribir_archivo(salida, textote) '''se manda a llamar a escribir archivo'''
def juntar_archivos(folder, inicia, termina): textos=[] folder_inicial = os.listdir(folder) #archivo.endswith(termina) lista_inicia= [archivo for archivo in folder_inicial if archivo.startswith(inicia)] lista_termina= [archivo for archivo in folder_inicial if archivo.endswith(termina)] archivos_texto=[] for archivo in lista_termina: texto = lector.leer_archivo(os.path.join(folder,archivo)) archivos_texto.append(texto) return archivos_texto
def main(ruta, x_k): try: ls1, ls2 = leer_archivo(ruta) if largo(ls1) != largo(ls2): print(f"""ERROR: Las listas no son del mismo tamaño, tienen {largo(ls1)} y {largo(ls2)} elementos respectivamente.""") sys.exit() print(f"beta_1: {beta_1(ls1, ls2)}") print(f"beta_0: {beta_0(ls1, ls2)}") print(f"r_xy: {r_xy(ls1, ls2)}") print(f"r2: {r2(ls1, ls2)}") print(f"y_k: {y_k(ls1, ls2, float(x_k))}") except ValueError: print( "ERROR: Todos los parámetros deben ser números reales o enteros.") sys.exit() except FileNotFoundError: print("ERROR: El archivo especificado no fue encontrado.") sys.exit()
def main(archivo, archivo_stopwords, incio, cuenta): texto = lector.leer_archivo(archivo) cita = obten_cita(texto, inicio, cuenta) print("cita:", cita) stopwords = lector.leer_stopwords(archivo_stopwords) contar_palabras.contar(cita, archivo_stopwords)
def main(archivo, inicio, conteo, archivo_stopwords): texto = lector.leer_archivo(archivo) cita = obtenCita(texto, inicio, conteo) print("cita: ", cita) stopwords = lector.leer_stopwords(archivo_stopwords) contar_palabras.main(cita, stopwords)
def main( archivo, inicio,cuenta ): texto=lector.leer_archivo(archivo) cita=obten_cita(texto,inicio,cuenta) print("Cita: ",cita) stopwords=lector.leer_stopwords("/home/andromeda/gilberto/spanish_stopwords.txt") contar_palabra.contar(cita,stopwords)
def main(archivo,archivo_stopwords): texto = lector.leer_archivo(archivo) stopwords= lector.leer_stopwords(archivo_stopwords) print(stopwords) contar(texto,stopwords)
def main(texto, numero): texto = lector.leer_archivo(archivo) lista_palabras_aleatorias = [] for i in range(numero): lista_palabras_aleatorias.append(extraer_palabra(texto)) print(lista_palabras_aleatorias)