if not line or bool(re.match(r'\s\s*', line)): print("linha vazia") else: searchpremio = re.search(r'Pr.*mio', line) ehpremio = bool(searchpremio) if ehpremio: txtpremio = line.strip() else: res = re.findall(r"\d\d\d\d", line) ano = res[0] linha = line.split(",")[0] instituicao = util.get_instituicao(linha) nomepremiado = util.getnome(linha) premiado = et.SubElement(root, "premiado") nome = et.SubElement(premiado, 'nome') nome.text = nomepremiado inst = et.SubElement(premiado, "instituicao") inst.text = instituicao.strip() premio = et.SubElement(premiado, "premio") nomepremio = et.SubElement(premio, "nomepremio") nomepremio.text = txtpremio anopremio = et.SubElement(premio, "ano") anopremio.text = ano f.close() #prettify xml
root = et.Element('ensaiosfotograficos') tree = et.ElementTree(root) with open('../txt/EnsaiosFotograficos.txt', encoding="utf8") as f: txt = f.read() clean_text = unicodedata.normalize("NFKD", txt) lines = clean_text.splitlines() for line in lines: if not line or bool(re.match(r'\s\s*', line)): print("linha vazia") else: spl = line.split(',') strnome = spl[0] nomeinstituicao = util.get_instituicao(strnome) strnome = util.removeparenteses(strnome.replace(nomeinstituicao, "")) strensaio = line.replace(spl[0]+',', "") resen = strensaio.split("#") partic = et.SubElement(root, "participante") nomeparticipante = et.SubElement(partic, "nome") nomeparticipante.text = util.getnome(strnome) if nomeinstituicao != "": instituicao = et.SubElement(partic, 'instituicao') instituicao.text = nomeinstituicao for ensaio in resen: en = et.SubElement(partic, "ensaio") ennome = et.SubElement(en, "nome") res = re.search(r'\s\d\d\d\d\s', ensaio) if res is not None:
for line in lines: if not line: print("linha vazia") else: ehprograma = bool(re.search('\(|\)', line)) ehestado = not ehprograma estado = util.getnome(line) if ehprograma: res = line.split(",") programa = res[0] strano = res[-1] nomeinstituicao = util.get_instituicao(programa) programa = programa.replace(nomeinstituicao, "") programa = programa.replace("(", "") programa = programa.replace(")", "") prg = et.SubElement(root, "programa") nomeprograma = et.SubElement(prg, 'nomeprograma') nomeprograma.text = programa.strip() instituicao = et.SubElement(prg, 'instituicao') instituicao.text = nomeinstituicao res = re.search(r'\d\d\d\d', strano) anofiliacao = res[0] anofili = et.SubElement(prg, 'anofiliacao') anofili.text = anofiliacao
cgo = line.split(':')[0] cgo = cgo.replace(":", "") cgo = cgo.replace(" ", "") res = re.search(r'Adjunt.*', cgo) if res != None: cgo = "SecretariaAdjunta" res = re.search(r'Executiv.*', cgo) if res != None: cgo = "SecretariaExecutiva" res = re.search(r'Diret.*', cgo) if res != None: cgo = "Diretor" participante = et.SubElement(root, "participante") nome = et.SubElement(participante, 'nome') nome.text = util.getnome(line) nomeinstituicao = util.get_instituicao(line) if nomeinstituicao != "": instituicao = et.SubElement(participante, 'instituicao') instituicao.text = nomeinstituicao cargo = et.SubElement(participante, 'cargo') #nomecargo = et.SubElement(cargo, 'nomecargo') cargo.text = cgo ano = et.SubElement(participante, 'anos') ano.text = anos[0] + ';' + anos[1] f.close() #prettify xml formatedXML = minidom.parseString( et.tostring(root)).toprettyxml(indent=" ").strip()
lines = clean_text.splitlines() for line in lines: if not line or bool(re.match(r'\s\s*', line)): print("linha vazia") else: colaborador = et.SubElement(root, "autor") nome = et.SubElement(colaborador, 'nome') txtnome = line.split(',')[0] nome.text = util.getnome(txtnome) instituicao = et.SubElement(colaborador, "instituicao") instituicao.text = util.get_instituicao(txtnome) ano = et.SubElement(colaborador, "ano") res = re.search(r"\d\d\d\d", line) ano.text = res.group(0) f.close() #prettify xml formatedXML = minidom.parseString( et.tostring(root)).toprettyxml(indent=" ").strip() #print(formatedXML) #tree.write('diretorias.xml', method='xml') # write the formatedXML to file. with io.open("../xml/ConversaComAutor.xml", "w+", encoding="utf-8") as f: