Esempio n. 1
0
 def __init__(self):
   HTMLParser.__init__(self)
   self.withinlinkdiv = -1
   self.current_value = 0 # 0 = nothing, 1 = votes, 2 = title this is used to
                          # link the data and the tag
   self.tempdata = [0, '', '', ''] # votes, title, link temporary, comment link, before it is put
                               # into the submission 
   self.sublist = [] # sublist for the submissions
Esempio n. 2
0
    def __init__(self, idMembro, cvLattesXML):
        HTMLParser.__init__(self)

        # inicializacao obrigatoria
        self.idMembro = idMembro

        self.item = ''
        self.listaIDLattesColaboradores = []
        self.listaFormacaoAcademica = []
        self.listaProjetoDePesquisa = []
        self.listaAreaDeAtuacao = []
        self.listaIdioma = []
        self.listaPremioOuTitulo = []

        self.listaArtigoEmPeriodico = []
        self.listaLivroPublicado = []
        self.listaCapituloDeLivroPublicado = []
        self.listaTextoEmJornalDeNoticia = []
        self.listaTrabalhoCompletoEmCongresso = []
        self.listaResumoExpandidoEmCongresso = []
        self.listaResumoEmCongresso = []
        self.listaArtigoAceito = []
        self.listaApresentacaoDeTrabalho = []
        self.listaOutroTipoDeProducaoBibliografica = []

        self.listaSoftwareComPatente = []
        self.listaSoftwareSemPatente = []
        self.listaProdutoTecnologico = []
        self.listaProcessoOuTecnica = []
        self.listaTrabalhoTecnico = []
        self.listaOutroTipoDeProducaoTecnica = []
        self.listaProducaoArtistica = []

        self.listaOASupervisaoDePosDoutorado = []
        self.listaOATeseDeDoutorado = []
        self.listaOADissertacaoDeMestrado = []
        self.listaOAMonografiaDeEspecializacao = []
        self.listaOATCC = []
        self.listaOAIniciacaoCientifica = []
        self.listaOAOutroTipoDeOrientacao = []

        self.listaOCSupervisaoDePosDoutorado = []
        self.listaOCTeseDeDoutorado = []
        self.listaOCDissertacaoDeMestrado = []
        self.listaOCMonografiaDeEspecializacao = []
        self.listaOCTCC = []
        self.listaOCIniciacaoCientifica = []
        self.listaOCOutroTipoDeOrientacao = []

        # inicializacao
        self.idLattes = ''
        self.url = ''
        self.foto = ''

        # feed it!
        # print cvLattesXML #.encode("utf8")
        self.feed(cvLattesXML)
Esempio n. 3
0
    def __init__(self, ldomain, scandpth, lps):
        HTMLParser.__init__(self)
        self.url = ldomain
        self.db = {self.url: 1}
        self.node = [self.url]
 
        self.depth = scandpth 
        self.max_span = lps 
        self.links_found = 0
Esempio n. 4
0
 def __init__(self, docfile):
     HTMLParser.__init__(self)
     self.docfile = docfile
     self.doc = Document(docfile)
     self.myclient = HTMLClient()
     self.text = ''
     self.title = False
     self.isdescription = False
     self.picList=[]
	def __init__(self, idMembro, cvLattesXML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro

		self.item = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		# inicializacao 
		self.idLattes = ''
		self.url      = ''
		self.foto     = ''

		# feed it!
		# print cvLattesXML #.encode("utf8")
		self.feed(cvLattesXML)
Esempio n. 6
0
 def __init__(self):
     HTMLParser.__init__(self)
     self.withinlinkdiv = -1
     self.current_value = 0  # 0 = nothing, 1 = votes, 2 = title this is used to
     # link the data and the tag
     self.tempdata = [
         0, '', '', ''
     ]  # votes, title, link temporary, comment link, before it is put
     # into the submission
     self.sublist = []  # sublist for the submissions
Esempio n. 7
0
 def __init__(self, rawDOIhtml):
     HTMLParser.__init__(self)
     self.dadosDaPublicacao = ""
     self.feed(rawDOIhtml)
Esempio n. 8
0
 def __init__(self):        
     HTMLParser.__init__(self) # http://stackoverflow.com/a/9698750
     self.start_title=0
     self.title = ''
     self.stop_title=0
Esempio n. 9
0
 def __init__(self):
     HTMLParser.__init__(self)
     self.article = Article("","")
	def __init__(self, idMembro, cvLattesHTML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro
		self.sexo = 'Masculino'
		self.nomeCompleto = u'[Nome-nao-identificado]'

		self.item = ''
		self.issn = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []

		self.listaPatente = []
		self.listaProgramaComputador = []
		self.listaDesenhoIndustrial = []
				
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		self.listaParticipacaoEmEvento = []
		self.listaOrganizacaoDeEvento = []


		# inicializacao para evitar a busca exaustiva de algumas palavras-chave
		self.salvarAtualizacaoCV = 1 
		self.salvarFoto = 1
		self.procurarCabecalho = 0
		self.achouGrupo = 0
		self.doi = ''
		self.relevante = 0
		self.idOrientando = ''
		self.complemento = ''

		# contornamos alguns erros do HTML da Plataforma Lattes
		cvLattesHTML = cvLattesHTML.replace("<![CDATA[","")
		cvLattesHTML = cvLattesHTML.replace("]]>","")
		cvLattesHTML = cvLattesHTML.replace("<x<","&lt;x&lt;")
		cvLattesHTML = cvLattesHTML.replace("<X<","&lt;X&lt;")

		# feed it!
		cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1})
		#print errors
		#print cvLattesHTML.encode("utf8")

		## tentativa errada (não previsível)
		# options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0)
		# cvLattesHTML = str(tidy.parseString(cvLattesHTML, **options)).decode("utf8")

		self.feed(cvLattesHTML)
Esempio n. 11
0
 def __init__(self):
     HTMLParser.__init__(self)
     self.links = []
     pass
Esempio n. 12
0
 def __init__(self):
     HTMLParser.__init__(self)
     self.links = []
Esempio n. 13
0
class BruteParser(HTMLParser):
	def __init__(self):
		HTMLParser.__init__(self)
Esempio n. 14
0
 def __init__(self):
     HTMLParser.__init__(self)
     # dictionary to store results
     self.tag_results = {}
Esempio n. 15
0
	def __init__(self, idMembro, cvLattesHTML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro
		self.sexo = 'Masculino'
		self.nomeCompleto = u'[Nome-nao-identificado]'

		self.item = ''
		self.issn = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []

		self.listaPatente = []
		self.listaProgramaComputador = []
		self.listaDesenhoIndustrial = []
				
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		self.listaParticipacaoEmEvento = []
		self.listaOrganizacaoDeEvento = []


		# inicializacao para evitar a busca exaustiva de algumas palavras-chave
		self.salvarAtualizacaoCV = 1 
		self.salvarFoto = 1
		self.procurarCabecalho = 0
		self.achouGrupo = 0
		self.doi = ''
		self.relevante = 0
		self.idOrientando = ''
		self.complemento = ''

		# contornamos alguns erros do HTML da Plataforma Lattes
		cvLattesHTML = cvLattesHTML.replace("<![CDATA[","")
		cvLattesHTML = cvLattesHTML.replace("]]>","")
		cvLattesHTML = cvLattesHTML.replace("<x<","&lt;x&lt;")
		cvLattesHTML = cvLattesHTML.replace("<X<","&lt;X&lt;")

		# feed it!
		try:
			cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1})
		except UnicodeDecodeError, e:
			# For some reason, pytidylib fails to decode, whereas the
			# original html content converts perfectly manually.
			print e
			cvLattesHTML, errors = tidy_document(cvLattesHTML.encode('utf-8'), options={'numeric-entities':1})
			document = document.decode('utf-8')
Esempio n. 16
0
 def __init__(self):
     HTMLParser.__init__(self)
     self.link = ''
Esempio n. 17
0
 def __init__(self):
     HTMLParser.__init__(self)
     self.started=True
     self.bad=False
     self.text=[]
     self.urls=[]
Esempio n. 18
0
	def __init__(self):
		HTMLParser.__init__(self)
Esempio n. 19
0
 def __init__(self):
     HTMLParser.__init__(self)  # http://stackoverflow.com/a/9698750
     self.start_title = 0
     self.title = ''
     self.stop_title = 0
 def __init__(self, projectDirectory):
     HTMLParser.__init__(self)
     self.projectDirectory = Scrapper.cleanDirecoryPath(projectDirectory)
 def __init__(self):
   HTMLParser.__init__(self)
   self.recording = 0
   self.data = []
	def __init__(self, rawDOIhtml):
		HTMLParser.__init__(self)
		self.dadosDaPublicacao = ""
		self.feed(rawDOIhtml)
Esempio n. 23
0
 def __init__(self, projectDirectory):
     HTMLParser.__init__(self)
     self.projectDirectory = Sourcerer.cleanDirecoryPath(projectDirectory)
	def __init__(self, idMembro, cvLattesHTML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro
		self.sexo = 'Masculino'

		self.item = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		self.listaParticipacaoEmEvento = []
		self.listaOrganizacaoDeEvento = []


		# inicializacao para evitar a busca exaustiva de algumas palavras-chave
		self.salvarAtualizacaoCV = 1 
		self.salvarFoto = 1
		self.procurarCabecalho = 0
		self.achouGrupo = 0
		self.doi = ''
		self.relevante = 0
		self.idOrientando = ''

		# contornamos alguns erros do HTML da Plataforma Lattes
		cvLattesHTML = cvLattesHTML.replace("<![CDATA[","")
		cvLattesHTML = cvLattesHTML.replace("]]>","")

		# feed it!
		cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1})
		#print errors
		#print cvLattesHTML.encode("utf8")

		## tentativa errada (não previsível)
		# options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0)
		# cvLattesHTML = str(tidy.parseString(cvLattesHTML, **options)).decode("utf8")

		self.feed(cvLattesHTML)
Esempio n. 25
0
 def __init__(self):
     self.root = None
     self.tree = []
     HTMLParser.__init__(self)