def __init__(self): HTMLParser.__init__(self) self.withinlinkdiv = -1 self.current_value = 0 # 0 = nothing, 1 = votes, 2 = title this is used to # link the data and the tag self.tempdata = [0, '', '', ''] # votes, title, link temporary, comment link, before it is put # into the submission self.sublist = [] # sublist for the submissions
def __init__(self, idMembro, cvLattesXML): HTMLParser.__init__(self) # inicializacao obrigatoria self.idMembro = idMembro self.item = '' self.listaIDLattesColaboradores = [] self.listaFormacaoAcademica = [] self.listaProjetoDePesquisa = [] self.listaAreaDeAtuacao = [] self.listaIdioma = [] self.listaPremioOuTitulo = [] self.listaArtigoEmPeriodico = [] self.listaLivroPublicado = [] self.listaCapituloDeLivroPublicado = [] self.listaTextoEmJornalDeNoticia = [] self.listaTrabalhoCompletoEmCongresso = [] self.listaResumoExpandidoEmCongresso = [] self.listaResumoEmCongresso = [] self.listaArtigoAceito = [] self.listaApresentacaoDeTrabalho = [] self.listaOutroTipoDeProducaoBibliografica = [] self.listaSoftwareComPatente = [] self.listaSoftwareSemPatente = [] self.listaProdutoTecnologico = [] self.listaProcessoOuTecnica = [] self.listaTrabalhoTecnico = [] self.listaOutroTipoDeProducaoTecnica = [] self.listaProducaoArtistica = [] self.listaOASupervisaoDePosDoutorado = [] self.listaOATeseDeDoutorado = [] self.listaOADissertacaoDeMestrado = [] self.listaOAMonografiaDeEspecializacao = [] self.listaOATCC = [] self.listaOAIniciacaoCientifica = [] self.listaOAOutroTipoDeOrientacao = [] self.listaOCSupervisaoDePosDoutorado = [] self.listaOCTeseDeDoutorado = [] self.listaOCDissertacaoDeMestrado = [] self.listaOCMonografiaDeEspecializacao = [] self.listaOCTCC = [] self.listaOCIniciacaoCientifica = [] self.listaOCOutroTipoDeOrientacao = [] # inicializacao self.idLattes = '' self.url = '' self.foto = '' # feed it! # print cvLattesXML #.encode("utf8") self.feed(cvLattesXML)
def __init__(self, ldomain, scandpth, lps): HTMLParser.__init__(self) self.url = ldomain self.db = {self.url: 1} self.node = [self.url] self.depth = scandpth self.max_span = lps self.links_found = 0
def __init__(self, docfile): HTMLParser.__init__(self) self.docfile = docfile self.doc = Document(docfile) self.myclient = HTMLClient() self.text = '' self.title = False self.isdescription = False self.picList=[]
def __init__(self, idMembro, cvLattesXML): HTMLParser.__init__(self) # inicializacao obrigatoria self.idMembro = idMembro self.item = '' self.listaIDLattesColaboradores = [] self.listaFormacaoAcademica = [] self.listaProjetoDePesquisa = [] self.listaAreaDeAtuacao = [] self.listaIdioma = [] self.listaPremioOuTitulo = [] self.listaArtigoEmPeriodico = [] self.listaLivroPublicado = [] self.listaCapituloDeLivroPublicado = [] self.listaTextoEmJornalDeNoticia = [] self.listaTrabalhoCompletoEmCongresso = [] self.listaResumoExpandidoEmCongresso = [] self.listaResumoEmCongresso = [] self.listaArtigoAceito = [] self.listaApresentacaoDeTrabalho = [] self.listaOutroTipoDeProducaoBibliografica = [] self.listaSoftwareComPatente = [] self.listaSoftwareSemPatente = [] self.listaProdutoTecnologico = [] self.listaProcessoOuTecnica = [] self.listaTrabalhoTecnico = [] self.listaOutroTipoDeProducaoTecnica = [] self.listaProducaoArtistica = [] self.listaOASupervisaoDePosDoutorado = [] self.listaOATeseDeDoutorado = [] self.listaOADissertacaoDeMestrado = [] self.listaOAMonografiaDeEspecializacao = [] self.listaOATCC = [] self.listaOAIniciacaoCientifica = [] self.listaOAOutroTipoDeOrientacao = [] self.listaOCSupervisaoDePosDoutorado = [] self.listaOCTeseDeDoutorado = [] self.listaOCDissertacaoDeMestrado = [] self.listaOCMonografiaDeEspecializacao = [] self.listaOCTCC = [] self.listaOCIniciacaoCientifica = [] self.listaOCOutroTipoDeOrientacao = [] # inicializacao self.idLattes = '' self.url = '' self.foto = '' # feed it! # print cvLattesXML #.encode("utf8") self.feed(cvLattesXML)
def __init__(self): HTMLParser.__init__(self) self.withinlinkdiv = -1 self.current_value = 0 # 0 = nothing, 1 = votes, 2 = title this is used to # link the data and the tag self.tempdata = [ 0, '', '', '' ] # votes, title, link temporary, comment link, before it is put # into the submission self.sublist = [] # sublist for the submissions
def __init__(self, rawDOIhtml): HTMLParser.__init__(self) self.dadosDaPublicacao = "" self.feed(rawDOIhtml)
def __init__(self): HTMLParser.__init__(self) # http://stackoverflow.com/a/9698750 self.start_title=0 self.title = '' self.stop_title=0
def __init__(self): HTMLParser.__init__(self) self.article = Article("","")
def __init__(self, idMembro, cvLattesHTML): HTMLParser.__init__(self) # inicializacao obrigatoria self.idMembro = idMembro self.sexo = 'Masculino' self.nomeCompleto = u'[Nome-nao-identificado]' self.item = '' self.issn = '' self.listaIDLattesColaboradores = [] self.listaFormacaoAcademica = [] self.listaProjetoDePesquisa = [] self.listaAreaDeAtuacao = [] self.listaIdioma = [] self.listaPremioOuTitulo = [] self.listaArtigoEmPeriodico = [] self.listaLivroPublicado = [] self.listaCapituloDeLivroPublicado = [] self.listaTextoEmJornalDeNoticia = [] self.listaTrabalhoCompletoEmCongresso = [] self.listaResumoExpandidoEmCongresso = [] self.listaResumoEmCongresso = [] self.listaArtigoAceito = [] self.listaApresentacaoDeTrabalho = [] self.listaOutroTipoDeProducaoBibliografica = [] self.listaSoftwareComPatente = [] self.listaSoftwareSemPatente = [] self.listaProdutoTecnologico = [] self.listaProcessoOuTecnica = [] self.listaTrabalhoTecnico = [] self.listaOutroTipoDeProducaoTecnica = [] self.listaPatente = [] self.listaProgramaComputador = [] self.listaDesenhoIndustrial = [] self.listaProducaoArtistica = [] self.listaOASupervisaoDePosDoutorado = [] self.listaOATeseDeDoutorado = [] self.listaOADissertacaoDeMestrado = [] self.listaOAMonografiaDeEspecializacao = [] self.listaOATCC = [] self.listaOAIniciacaoCientifica = [] self.listaOAOutroTipoDeOrientacao = [] self.listaOCSupervisaoDePosDoutorado = [] self.listaOCTeseDeDoutorado = [] self.listaOCDissertacaoDeMestrado = [] self.listaOCMonografiaDeEspecializacao = [] self.listaOCTCC = [] self.listaOCIniciacaoCientifica = [] self.listaOCOutroTipoDeOrientacao = [] self.listaParticipacaoEmEvento = [] self.listaOrganizacaoDeEvento = [] # inicializacao para evitar a busca exaustiva de algumas palavras-chave self.salvarAtualizacaoCV = 1 self.salvarFoto = 1 self.procurarCabecalho = 0 self.achouGrupo = 0 self.doi = '' self.relevante = 0 self.idOrientando = '' self.complemento = '' # contornamos alguns erros do HTML da Plataforma Lattes cvLattesHTML = cvLattesHTML.replace("<![CDATA[","") cvLattesHTML = cvLattesHTML.replace("]]>","") cvLattesHTML = cvLattesHTML.replace("<x<","<x<") cvLattesHTML = cvLattesHTML.replace("<X<","<X<") # feed it! cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1}) #print errors #print cvLattesHTML.encode("utf8") ## tentativa errada (não previsível) # options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0) # cvLattesHTML = str(tidy.parseString(cvLattesHTML, **options)).decode("utf8") self.feed(cvLattesHTML)
def __init__(self): HTMLParser.__init__(self) self.links = [] pass
def __init__(self): HTMLParser.__init__(self) self.links = []
class BruteParser(HTMLParser): def __init__(self): HTMLParser.__init__(self)
def __init__(self): HTMLParser.__init__(self) # dictionary to store results self.tag_results = {}
def __init__(self, idMembro, cvLattesHTML): HTMLParser.__init__(self) # inicializacao obrigatoria self.idMembro = idMembro self.sexo = 'Masculino' self.nomeCompleto = u'[Nome-nao-identificado]' self.item = '' self.issn = '' self.listaIDLattesColaboradores = [] self.listaFormacaoAcademica = [] self.listaProjetoDePesquisa = [] self.listaAreaDeAtuacao = [] self.listaIdioma = [] self.listaPremioOuTitulo = [] self.listaArtigoEmPeriodico = [] self.listaLivroPublicado = [] self.listaCapituloDeLivroPublicado = [] self.listaTextoEmJornalDeNoticia = [] self.listaTrabalhoCompletoEmCongresso = [] self.listaResumoExpandidoEmCongresso = [] self.listaResumoEmCongresso = [] self.listaArtigoAceito = [] self.listaApresentacaoDeTrabalho = [] self.listaOutroTipoDeProducaoBibliografica = [] self.listaSoftwareComPatente = [] self.listaSoftwareSemPatente = [] self.listaProdutoTecnologico = [] self.listaProcessoOuTecnica = [] self.listaTrabalhoTecnico = [] self.listaOutroTipoDeProducaoTecnica = [] self.listaPatente = [] self.listaProgramaComputador = [] self.listaDesenhoIndustrial = [] self.listaProducaoArtistica = [] self.listaOASupervisaoDePosDoutorado = [] self.listaOATeseDeDoutorado = [] self.listaOADissertacaoDeMestrado = [] self.listaOAMonografiaDeEspecializacao = [] self.listaOATCC = [] self.listaOAIniciacaoCientifica = [] self.listaOAOutroTipoDeOrientacao = [] self.listaOCSupervisaoDePosDoutorado = [] self.listaOCTeseDeDoutorado = [] self.listaOCDissertacaoDeMestrado = [] self.listaOCMonografiaDeEspecializacao = [] self.listaOCTCC = [] self.listaOCIniciacaoCientifica = [] self.listaOCOutroTipoDeOrientacao = [] self.listaParticipacaoEmEvento = [] self.listaOrganizacaoDeEvento = [] # inicializacao para evitar a busca exaustiva de algumas palavras-chave self.salvarAtualizacaoCV = 1 self.salvarFoto = 1 self.procurarCabecalho = 0 self.achouGrupo = 0 self.doi = '' self.relevante = 0 self.idOrientando = '' self.complemento = '' # contornamos alguns erros do HTML da Plataforma Lattes cvLattesHTML = cvLattesHTML.replace("<![CDATA[","") cvLattesHTML = cvLattesHTML.replace("]]>","") cvLattesHTML = cvLattesHTML.replace("<x<","<x<") cvLattesHTML = cvLattesHTML.replace("<X<","<X<") # feed it! try: cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1}) except UnicodeDecodeError, e: # For some reason, pytidylib fails to decode, whereas the # original html content converts perfectly manually. print e cvLattesHTML, errors = tidy_document(cvLattesHTML.encode('utf-8'), options={'numeric-entities':1}) document = document.decode('utf-8')
def __init__(self): HTMLParser.__init__(self) self.link = ''
def __init__(self): HTMLParser.__init__(self) self.started=True self.bad=False self.text=[] self.urls=[]
def __init__(self): HTMLParser.__init__(self)
def __init__(self): HTMLParser.__init__(self) # http://stackoverflow.com/a/9698750 self.start_title = 0 self.title = '' self.stop_title = 0
def __init__(self, projectDirectory): HTMLParser.__init__(self) self.projectDirectory = Scrapper.cleanDirecoryPath(projectDirectory)
def __init__(self): HTMLParser.__init__(self) self.recording = 0 self.data = []
def __init__(self, rawDOIhtml): HTMLParser.__init__(self) self.dadosDaPublicacao = "" self.feed(rawDOIhtml)
def __init__(self, projectDirectory): HTMLParser.__init__(self) self.projectDirectory = Sourcerer.cleanDirecoryPath(projectDirectory)
def __init__(self, idMembro, cvLattesHTML): HTMLParser.__init__(self) # inicializacao obrigatoria self.idMembro = idMembro self.sexo = 'Masculino' self.item = '' self.listaIDLattesColaboradores = [] self.listaFormacaoAcademica = [] self.listaProjetoDePesquisa = [] self.listaAreaDeAtuacao = [] self.listaIdioma = [] self.listaPremioOuTitulo = [] self.listaArtigoEmPeriodico = [] self.listaLivroPublicado = [] self.listaCapituloDeLivroPublicado = [] self.listaTextoEmJornalDeNoticia = [] self.listaTrabalhoCompletoEmCongresso = [] self.listaResumoExpandidoEmCongresso = [] self.listaResumoEmCongresso = [] self.listaArtigoAceito = [] self.listaApresentacaoDeTrabalho = [] self.listaOutroTipoDeProducaoBibliografica = [] self.listaSoftwareComPatente = [] self.listaSoftwareSemPatente = [] self.listaProdutoTecnologico = [] self.listaProcessoOuTecnica = [] self.listaTrabalhoTecnico = [] self.listaOutroTipoDeProducaoTecnica = [] self.listaProducaoArtistica = [] self.listaOASupervisaoDePosDoutorado = [] self.listaOATeseDeDoutorado = [] self.listaOADissertacaoDeMestrado = [] self.listaOAMonografiaDeEspecializacao = [] self.listaOATCC = [] self.listaOAIniciacaoCientifica = [] self.listaOAOutroTipoDeOrientacao = [] self.listaOCSupervisaoDePosDoutorado = [] self.listaOCTeseDeDoutorado = [] self.listaOCDissertacaoDeMestrado = [] self.listaOCMonografiaDeEspecializacao = [] self.listaOCTCC = [] self.listaOCIniciacaoCientifica = [] self.listaOCOutroTipoDeOrientacao = [] self.listaParticipacaoEmEvento = [] self.listaOrganizacaoDeEvento = [] # inicializacao para evitar a busca exaustiva de algumas palavras-chave self.salvarAtualizacaoCV = 1 self.salvarFoto = 1 self.procurarCabecalho = 0 self.achouGrupo = 0 self.doi = '' self.relevante = 0 self.idOrientando = '' # contornamos alguns erros do HTML da Plataforma Lattes cvLattesHTML = cvLattesHTML.replace("<![CDATA[","") cvLattesHTML = cvLattesHTML.replace("]]>","") # feed it! cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1}) #print errors #print cvLattesHTML.encode("utf8") ## tentativa errada (não previsível) # options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0) # cvLattesHTML = str(tidy.parseString(cvLattesHTML, **options)).decode("utf8") self.feed(cvLattesHTML)
def __init__(self): self.root = None self.tree = [] HTMLParser.__init__(self)