Esempio n. 1
0
def descrip_clarin(root, id_seccion):
    salida = open("salida.txt", "a")
    
    for idx in range(7,len(root[0])):
        descrip = root[0][idx][2].text
        
        fecha = root[0][idx][4].text
        fecha = parsear(fecha)
        fecha = fecha.strftime('%y%m%d%H%M')
        
        idDocumento = '1'+str(id_seccion)+str(idx).zfill(3)+"2"+fecha
        
        lista = re.split(r'\W+',descrip)
        lista = lematizar(lista)
        
        for palabra in lista:
            salida.write((palabra+", "+idDocumento+"\n"))

    salida.close()
Esempio n. 2
0
def titulo_lanacion(root, id_seccion):
    salida = open("salida.txt", "a")

    for idx in range(7, len(root)):
        titulo = root[idx][1].text
        fecha = root[idx][3].text
        fecha = parsear(fecha)
        fecha = fecha.strftime('%y%m%d%H%M')

        #La Nacion comienza con 3
        idDocumento = '3' + str(id_seccion) + str(idx).zfill(3) + '1' + fecha

        lista = re.split(r'\W+', titulo)
        lista = lematizar(lista)

        for palabra in lista:
            salida.write((palabra + ", " + idDocumento + "\n"))

    salida.close()
Esempio n. 3
0
def descrip_telam(root, id_seccion):
    salida = open("salida.txt", "a")

    for idx in range(4, len(root[0])):
        descrip = root[0][idx][3].text
        descrip = descrip.encode("raw_unicode_escape").decode()

        fecha = root[0][idx][4].text
        fecha = parsear(fecha)
        fecha = fecha.strftime('%y%m%d%H%M')

        idDocumento = '2' + str(id_seccion) + str(idx).zfill(3) + "2" + fecha

        lista = re.split(r'\W+', descrip)
        lista = lematizar(lista)

        for palabra in lista:
            salida.write((palabra + ", " + idDocumento + "\n"))

    salida.close()
Esempio n. 4
0
def titulo_telam(root, id_seccion):
    salida = open("salida.txt", "a")

    for idx in range(4, len(root[0])):
        titulo = root[0][idx][0].text
        titulo = titulo.encode("raw_unicode_escape").decode()
        fecha = root[0][idx][4].text
        fecha = parsear(fecha)
        fecha = fecha.strftime('%y%m%d%H%M')

        #Telam comienza con 2
        idDocumento = '2' + str(id_seccion) + str(idx).zfill(3) + '1' + fecha

        lista = re.split(r'\W+', titulo)
        lista = lematizar(lista)

        for palabra in lista:
            salida.write((palabra + ", " + idDocumento + "\n"))

    salida.close()