for line in lines:

    if not line or bool(re.match(r'\s\s*', line)):
        print("linha vazia")
    else:
        spl = line.split(',')
        strnome = spl[0]
        nomeinstituicao = util.get_instituicao(strnome)
        strnome = util.removeparenteses(strnome.replace(nomeinstituicao, ""))
        strensaio = line.replace(spl[0]+',', "")
        resen = strensaio.split("#")
        partic = et.SubElement(root, "participante")
        nomeparticipante = et.SubElement(partic, "nome")
        nomeparticipante.text = util.getnome(strnome)
        if nomeinstituicao != "":
            instituicao = et.SubElement(partic, 'instituicao')
            instituicao.text = nomeinstituicao
        for ensaio in resen:
            en = et.SubElement(partic, "ensaio")
            ennome = et.SubElement(en, "nome")

            res = re.search(r'\s\d\d\d\d\s', ensaio)
            if res is not None:
                ano = res.group(0)
                ens = ensaio.replace(ano, "")
                year = et.SubElement(en, "ano")
                year.text = ano.strip()
            ennome.text = ens.strip()
Beispiel #2
0
    if not line or bool(re.match(r'\s\s*', line)):
        print("linha vazia")
    else:

        searchpremio = re.search(r'Pr.*mio', line)
        ehpremio = bool(searchpremio)

        if ehpremio:
            txtpremio = line.strip()

        else:
            res = re.findall(r"\d\d\d\d", line)
            ano = res[0]
            linha = line.split(",")[0]
            instituicao = util.get_instituicao(linha)
            nomepremiado = util.getnome(linha)
            premiado = et.SubElement(root, "premiado")
            nome = et.SubElement(premiado, 'nome')
            nome.text = nomepremiado
            inst = et.SubElement(premiado, "instituicao")
            inst.text = instituicao.strip()
            premio = et.SubElement(premiado, "premio")
            nomepremio = et.SubElement(premio, "nomepremio")
            nomepremio.text = txtpremio
            anopremio = et.SubElement(premio, "ano")
            anopremio.text = ano

f.close()
#prettify xml

formatedXML = minidom.parseString(
Beispiel #3
0
    for matchNum, match in enumerate(matches):
        matchNum = matchNum + 1

        macrocurso = match.group(1)
        linesmatch = "{match}".format(matchNum=matchNum,
                                      start=match.start(),
                                      end=match.end(),
                                      match=match.group())
        linesmatch = linesmatch.splitlines()
        subcursos = linesmatch.copy()
        subcursos.remove(macrocurso)
        lines.remove(macrocurso)
        curso = et.SubElement(root, "curso")
        nome = et.SubElement(curso, 'nome')
        nome.text = util.getnome(macrocurso)
        nomesubcurso, nomeprofessor, ano = "", "", ""
        for linha in subcursos:
            lines.remove(linha)
            res = re.search(r'\d\d\d\d', linha)
            if (bool(res)):
                ano = res.group(0)
                nomeprofessor = util.getnome(linha).replace(",", '')
                nomeprofessor = nomeprofessor.replace(ano, "").strip()
                continue
            else:
                nomesubcurso = linha.strip()
                subcurso = et.SubElement(curso, "subcurso")
                titulosubcurso = et.SubElement(subcurso, "nomesubcurso")
                titulosubcurso.text = nomesubcurso
                professor = et.SubElement(subcurso, "professor")
Beispiel #4
0
            else:
                cgo = line.split(':')[0]
                cgo = cgo.replace(":", "")
                cgo = cgo.replace(" ", "")
                res = re.search(r'Adjunt.*', cgo)
                if res != None:
                    cgo = "SecretariaAdjunta"
                res = re.search(r'Executiv.*', cgo)
                if res != None:
                    cgo = "SecretariaExecutiva"
                res = re.search(r'Diret.*', cgo)
                if res != None:
                    cgo = "Diretor"
            participante = et.SubElement(root, "participante")
            nome = et.SubElement(participante, 'nome')
            nome.text = util.getnome(line)
            nomeinstituicao = util.get_instituicao(line)
            if nomeinstituicao != "":
                instituicao = et.SubElement(participante, 'instituicao')
                instituicao.text = nomeinstituicao
            cargo = et.SubElement(participante, 'cargo')
            #nomecargo = et.SubElement(cargo, 'nomecargo')
            cargo.text = cgo

            ano = et.SubElement(participante, 'anos')
            ano.text = anos[0] + ';' + anos[1]

f.close()
#prettify xml

formatedXML = minidom.parseString(
    if not line or bool(re.match(r'\s\s*', line)):
        print("linha vazia")
    else:
        res = re.findall(r'\d\d\d\d', line)
        ehgrupo = bool(res)
        if (ehgrupo):
            smp = util.removeano(line)
            simposio = et.SubElement(root, "simposio")
            nome = et.SubElement(simposio, "nome")
            nome.text = smp.strip()
            for linha in res:
                ano = et.SubElement(simposio, 'ano')
                ano.text = linha
        else:
            nomeparticipante = util.getnome(line)
            instituicao = util.get_instituicao(line)
            participante = et.SubElement(simposio, "participante")
            participante.text = nomeparticipante.strip()
            if (instituicao != ""):
                inst = et.SubElement(participante, "instituicao")
                inst.text = instituicao.strip()

f.close()
#prettify xml

formatedXML = minidom.parseString(
    et.tostring(root)).toprettyxml(indent=" ").strip()
#print(formatedXML)

#tree.write('diretorias.xml',  method='xml')
    lines = clean_text.splitlines()

for line in lines:

    if not line or bool(re.match(r'\s\s*', line)):
        print("linha vazia")
    else:
        spl = line.split(',')
        strnome = spl[0]
        nomeinstituicao = util.get_instituicao(strnome)
        strnome = util.removeparenteses(strnome.replace(nomeinstituicao, ""))
        strconf = line.replace(spl[0] + ',', "")
        resconf = strconf.split("#")
        conferencista = et.SubElement(root, "conferencista")
        nome = et.SubElement(conferencista, 'nome')
        nome.text = util.getnome(strnome)
        instituicao = et.SubElement(conferencista, 'instituicao')
        instituicao.text = nomeinstituicao
        for conf in resconf:
            ano = re.search(r'\d\d\d\d', conf).group(0)
            conf = conf.replace(ano, "")
            conferencia = et.SubElement(conferencista, "conferencia")
            conferencia.text = conf.strip()
            year = et.SubElement(conferencia, "ano")
            year.text = ano

f.close()
#prettify xml

formatedXML = minidom.parseString(
    et.tostring(root)).toprettyxml(indent=" ").strip()
    lines = clean_text.splitlines()

for line in lines:

    if not line or bool(re.match(r'\s\s*', line)):

        print("linha vazia")
    else:
        resano = re.search(r'\(\d\d\d\d\)', line)
        if bool(resano):
            anotxt = resano.group(0)
            continue
        vencedor = et.SubElement(root, "vencedor")
        nome = et.SubElement(vencedor, 'nome')
        txtnome = line.split(',')[0]
        nome.text = util.getnome(txtnome)
        res = re.search(r"(\d\d\d\d),?\s?(\d\d\d\d)?", line)
        if bool(res):
            ano = et.SubElement(vencedor, "ano")
            ano.text = res.group(1)
            if res.group(2) is not None:
                ano = et.SubElement(vencedor, "ano")
                ano.text = res.group(1)
        else:
            ano = et.SubElement(vencedor, "ano")
            ano.text = util.removeparenteses(anotxt)

f.close()
# prettify xml

formatedXML = minidom.parseString(et.tostring(root)).toprettyxml(indent=" ").strip()
Beispiel #8
0
            cargo = search.group(0).replace(":", "")

            cargo = cargo.replace(" ", "")
            res = re.search(r'Adjunt.*', cargo)
            if res != None:
                cargo = "SecretariaAdjunta"
            res = re.search(r'Executiv.*', cargo)
            if res != None:
                cargo = "SecretariaExecutiva"
            res = re.search(r'Diret.*', cargo)
            if res != None:
                cargo = "Diretor"

            cg = et.SubElement(bienio, cargo + "")
            nome = et.SubElement(cg, 'nome')
            nome.text = util.getnome(line)

            nomeinstituicao = util.get_instituicao(line)
            if nomeinstituicao != "":
                instituicao = et.SubElement(cg, 'instituicao')
                instituicao.text = nomeinstituicao
        elif ehconselho:
            line = next(itr)

            cons = et.SubElement(bienio, 'conselheiro')
            nome = et.SubElement(cons, 'nome')
            nome.text = util.getnome(line)
            string = util.getnome(line)

            nomeinstituicao = util.get_instituicao(line)
            if nomeinstituicao != "":
root = et.Element('programas')
tree = et.ElementTree(root)
with open('../txt/Programas.txt', encoding="utf8") as f:
    txt = f.read()
    clean_text = unicodedata.normalize("NFKD", txt)
    lines = clean_text.splitlines()

for line in lines:

    if not line:
        print("linha vazia")
    else:
        ehprograma = bool(re.search('\(|\)', line))
        ehestado = not ehprograma
        estado = util.getnome(line)

        if ehprograma:
            res = line.split(",")
            programa = res[0]
            strano = res[-1]

            nomeinstituicao = util.get_instituicao(programa)
            programa = programa.replace(nomeinstituicao, "")
            programa = programa.replace("(", "")
            programa = programa.replace(")", "")

            prg = et.SubElement(root, "programa")
            nomeprograma = et.SubElement(prg, 'nomeprograma')
            nomeprograma.text = programa.strip()