Пример #1
0
    if not line or bool(re.match(r'\s\s*', line)):
        print("linha vazia")
    else:

        searchpremio = re.search(r'Pr.*mio', line)
        ehpremio = bool(searchpremio)

        if ehpremio:
            txtpremio = line.strip()

        else:
            res = re.findall(r"\d\d\d\d", line)
            ano = res[0]
            linha = line.split(",")[0]
            instituicao = util.get_instituicao(linha)
            nomepremiado = util.getnome(linha)
            premiado = et.SubElement(root, "premiado")
            nome = et.SubElement(premiado, 'nome')
            nome.text = nomepremiado
            inst = et.SubElement(premiado, "instituicao")
            inst.text = instituicao.strip()
            premio = et.SubElement(premiado, "premio")
            nomepremio = et.SubElement(premio, "nomepremio")
            nomepremio.text = txtpremio
            anopremio = et.SubElement(premio, "ano")
            anopremio.text = ano

f.close()
#prettify xml
root = et.Element('ensaiosfotograficos')
tree = et.ElementTree(root)
with open('../txt/EnsaiosFotograficos.txt', encoding="utf8") as f:
    txt = f.read()
    clean_text = unicodedata.normalize("NFKD", txt)
    lines = clean_text.splitlines()


for line in lines:

    if not line or bool(re.match(r'\s\s*', line)):
        print("linha vazia")
    else:
        spl = line.split(',')
        strnome = spl[0]
        nomeinstituicao = util.get_instituicao(strnome)
        strnome = util.removeparenteses(strnome.replace(nomeinstituicao, ""))
        strensaio = line.replace(spl[0]+',', "")
        resen = strensaio.split("#")
        partic = et.SubElement(root, "participante")
        nomeparticipante = et.SubElement(partic, "nome")
        nomeparticipante.text = util.getnome(strnome)
        if nomeinstituicao != "":
            instituicao = et.SubElement(partic, 'instituicao')
            instituicao.text = nomeinstituicao
        for ensaio in resen:
            en = et.SubElement(partic, "ensaio")
            ennome = et.SubElement(en, "nome")

            res = re.search(r'\s\d\d\d\d\s', ensaio)
            if res is not None:
Пример #3
0
for line in lines:

    if not line:
        print("linha vazia")
    else:
        ehprograma = bool(re.search('\(|\)', line))
        ehestado = not ehprograma
        estado = util.getnome(line)

        if ehprograma:
            res = line.split(",")
            programa = res[0]
            strano = res[-1]

            nomeinstituicao = util.get_instituicao(programa)
            programa = programa.replace(nomeinstituicao, "")
            programa = programa.replace("(", "")
            programa = programa.replace(")", "")

            prg = et.SubElement(root, "programa")
            nomeprograma = et.SubElement(prg, 'nomeprograma')
            nomeprograma.text = programa.strip()

            instituicao = et.SubElement(prg, 'instituicao')
            instituicao.text = nomeinstituicao
            res = re.search(r'\d\d\d\d', strano)
            anofiliacao = res[0]

            anofili = et.SubElement(prg, 'anofiliacao')
            anofili.text = anofiliacao
Пример #4
0
                cgo = line.split(':')[0]
                cgo = cgo.replace(":", "")
                cgo = cgo.replace(" ", "")
                res = re.search(r'Adjunt.*', cgo)
                if res != None:
                    cgo = "SecretariaAdjunta"
                res = re.search(r'Executiv.*', cgo)
                if res != None:
                    cgo = "SecretariaExecutiva"
                res = re.search(r'Diret.*', cgo)
                if res != None:
                    cgo = "Diretor"
            participante = et.SubElement(root, "participante")
            nome = et.SubElement(participante, 'nome')
            nome.text = util.getnome(line)
            nomeinstituicao = util.get_instituicao(line)
            if nomeinstituicao != "":
                instituicao = et.SubElement(participante, 'instituicao')
                instituicao.text = nomeinstituicao
            cargo = et.SubElement(participante, 'cargo')
            #nomecargo = et.SubElement(cargo, 'nomecargo')
            cargo.text = cgo

            ano = et.SubElement(participante, 'anos')
            ano.text = anos[0] + ';' + anos[1]

f.close()
#prettify xml

formatedXML = minidom.parseString(
    et.tostring(root)).toprettyxml(indent=" ").strip()
    lines = clean_text.splitlines()

for line in lines:

    if not line or bool(re.match(r'\s\s*', line)):

        print("linha vazia")
    else:

        colaborador = et.SubElement(root, "autor")
        nome = et.SubElement(colaborador, 'nome')
        txtnome = line.split(',')[0]
        nome.text = util.getnome(txtnome)

        instituicao = et.SubElement(colaborador, "instituicao")
        instituicao.text = util.get_instituicao(txtnome)

        ano = et.SubElement(colaborador, "ano")
        res = re.search(r"\d\d\d\d", line)
        ano.text = res.group(0)

f.close()
#prettify xml

formatedXML = minidom.parseString(
    et.tostring(root)).toprettyxml(indent=" ").strip()
#print(formatedXML)

#tree.write('diretorias.xml',  method='xml')
# write the formatedXML to file.
with io.open("../xml/ConversaComAutor.xml", "w+", encoding="utf-8") as f: