Esempi in Python per HTMLParser.__init__, esempi in Python per HTMLParser.__init__, vim-awesome

Esempio n. 1

0

Mostra file

File: redditparse.py Progetto: acccurrent/r_weeklysweeper

 def __init__(self):
   HTMLParser.__init__(self)
   self.withinlinkdiv = -1
   self.current_value = 0 # 0 = nothing, 1 = votes, 2 = title this is used to
                          # link the data and the tag
   self.tempdata = [0, '', '', ''] # votes, title, link temporary, comment link, before it is put
                               # into the submission 
   self.sublist = [] # sublist for the submissions

Esempio n. 2

0

Mostra file

    def __init__(self, idMembro, cvLattesXML):
        HTMLParser.__init__(self)

        # inicializacao obrigatoria
        self.idMembro = idMembro

        self.item = ''
        self.listaIDLattesColaboradores = []
        self.listaFormacaoAcademica = []
        self.listaProjetoDePesquisa = []
        self.listaAreaDeAtuacao = []
        self.listaIdioma = []
        self.listaPremioOuTitulo = []

        self.listaArtigoEmPeriodico = []
        self.listaLivroPublicado = []
        self.listaCapituloDeLivroPublicado = []
        self.listaTextoEmJornalDeNoticia = []
        self.listaTrabalhoCompletoEmCongresso = []
        self.listaResumoExpandidoEmCongresso = []
        self.listaResumoEmCongresso = []
        self.listaArtigoAceito = []
        self.listaApresentacaoDeTrabalho = []
        self.listaOutroTipoDeProducaoBibliografica = []

        self.listaSoftwareComPatente = []
        self.listaSoftwareSemPatente = []
        self.listaProdutoTecnologico = []
        self.listaProcessoOuTecnica = []
        self.listaTrabalhoTecnico = []
        self.listaOutroTipoDeProducaoTecnica = []
        self.listaProducaoArtistica = []

        self.listaOASupervisaoDePosDoutorado = []
        self.listaOATeseDeDoutorado = []
        self.listaOADissertacaoDeMestrado = []
        self.listaOAMonografiaDeEspecializacao = []
        self.listaOATCC = []
        self.listaOAIniciacaoCientifica = []
        self.listaOAOutroTipoDeOrientacao = []

        self.listaOCSupervisaoDePosDoutorado = []
        self.listaOCTeseDeDoutorado = []
        self.listaOCDissertacaoDeMestrado = []
        self.listaOCMonografiaDeEspecializacao = []
        self.listaOCTCC = []
        self.listaOCIniciacaoCientifica = []
        self.listaOCOutroTipoDeOrientacao = []

        # inicializacao
        self.idLattes = ''
        self.url = ''
        self.foto = ''

        # feed it!
        # print cvLattesXML #.encode("utf8")
        self.feed(cvLattesXML)

Esempio n. 3

0

Mostra file

File: Serverchk.py Progetto: mahdi0011/darkcode

    def __init__(self, ldomain, scandpth, lps):
        HTMLParser.__init__(self)
        self.url = ldomain
        self.db = {self.url: 1}
        self.node = [self.url]
 
        self.depth = scandpth 
        self.max_span = lps 
        self.links_found = 0

Esempio n. 4

0

Mostra file

 def __init__(self, docfile):
     HTMLParser.__init__(self)
     self.docfile = docfile
     self.doc = Document(docfile)
     self.myclient = HTMLClient()
     self.text = ''
     self.title = False
     self.isdescription = False
     self.picList=[]

Esempio n. 5

0

Mostra file

File: parserLattesXML.py Progetto: BeatrizFerreira/DynamicLattes

	def __init__(self, idMembro, cvLattesXML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro

		self.item = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		# inicializacao 
		self.idLattes = ''
		self.url      = ''
		self.foto     = ''

		# feed it!
		# print cvLattesXML #.encode("utf8")
		self.feed(cvLattesXML)

Esempio n. 6

0

Mostra file

File: redditparse.py Progetto: kcazyz/r_weeklysweeper

 def __init__(self):
     HTMLParser.__init__(self)
     self.withinlinkdiv = -1
     self.current_value = 0  # 0 = nothing, 1 = votes, 2 = title this is used to
     # link the data and the tag
     self.tempdata = [
         0, '', '', ''
     ]  # votes, title, link temporary, comment link, before it is put
     # into the submission
     self.sublist = []  # sublist for the submissions

Esempio n. 7

0

Mostra file

 def __init__(self, rawDOIhtml):
     HTMLParser.__init__(self)
     self.dadosDaPublicacao = ""
     self.feed(rawDOIhtml)

Esempio n. 8

0

Mostra file

File: sneak.py Progetto: sir-ragna/sneak

 def __init__(self):        
     HTMLParser.__init__(self) # http://stackoverflow.com/a/9698750
     self.start_title=0
     self.title = ''
     self.stop_title=0

Esempio n. 9

0

Mostra file

File: bt.py Progetto: chenqizheng/bt_download

 def __init__(self):
     HTMLParser.__init__(self)
     self.article = Article("","")

Esempio n. 10

0

Mostra file

File: parserLattes.py Progetto: charles-souza/tcc-script-lattes

	def __init__(self, idMembro, cvLattesHTML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro
		self.sexo = 'Masculino'
		self.nomeCompleto = u'[Nome-nao-identificado]'

		self.item = ''
		self.issn = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []

		self.listaPatente = []
		self.listaProgramaComputador = []
		self.listaDesenhoIndustrial = []
				
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		self.listaParticipacaoEmEvento = []
		self.listaOrganizacaoDeEvento = []


		# inicializacao para evitar a busca exaustiva de algumas palavras-chave
		self.salvarAtualizacaoCV = 1 
		self.salvarFoto = 1
		self.procurarCabecalho = 0
		self.achouGrupo = 0
		self.doi = ''
		self.relevante = 0
		self.idOrientando = ''
		self.complemento = ''

		# contornamos alguns erros do HTML da Plataforma Lattes
		cvLattesHTML = cvLattesHTML.replace("<![CDATA[","")
		cvLattesHTML = cvLattesHTML.replace("]]>","")
		cvLattesHTML = cvLattesHTML.replace("<x<","&lt;x&lt;")
		cvLattesHTML = cvLattesHTML.replace("<X<","&lt;X&lt;")

		# feed it!
		cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1})
		#print errors
		#print cvLattesHTML.encode("utf8")

		## tentativa errada (não previsível)
		# options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0)
		# cvLattesHTML = str(tidy.parseString(cvLattesHTML, **options)).decode("utf8")

		self.feed(cvLattesHTML)

Esempio n. 11

0

Mostra file

File: qiushibaikeimage.py Progetto: hukz37/python_crawler

 def __init__(self):
     HTMLParser.__init__(self)
     self.links = []
     pass

Esempio n. 12

0

Mostra file

File: bt.py Progetto: chenqizheng/bt_download

 def __init__(self):
     HTMLParser.__init__(self)
     self.links = []

Esempio n. 13

0

Mostra file

File: joomla_killer.py Progetto: icyphox/blackhatpython

class BruteParser(HTMLParser):
	def __init__(self):
		HTMLParser.__init__(self)

Esempio n. 14

0

Mostra file

 def __init__(self):
     HTMLParser.__init__(self)
     # dictionary to store results
     self.tag_results = {}

Esempio n. 15

0

Mostra file

File: parserLattes.py Progetto: magsilva/scriptLattes

	def __init__(self, idMembro, cvLattesHTML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro
		self.sexo = 'Masculino'
		self.nomeCompleto = u'[Nome-nao-identificado]'

		self.item = ''
		self.issn = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []

		self.listaPatente = []
		self.listaProgramaComputador = []
		self.listaDesenhoIndustrial = []
				
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		self.listaParticipacaoEmEvento = []
		self.listaOrganizacaoDeEvento = []


		# inicializacao para evitar a busca exaustiva de algumas palavras-chave
		self.salvarAtualizacaoCV = 1 
		self.salvarFoto = 1
		self.procurarCabecalho = 0
		self.achouGrupo = 0
		self.doi = ''
		self.relevante = 0
		self.idOrientando = ''
		self.complemento = ''

		# contornamos alguns erros do HTML da Plataforma Lattes
		cvLattesHTML = cvLattesHTML.replace("<![CDATA[","")
		cvLattesHTML = cvLattesHTML.replace("]]>","")
		cvLattesHTML = cvLattesHTML.replace("<x<","&lt;x&lt;")
		cvLattesHTML = cvLattesHTML.replace("<X<","&lt;X&lt;")

		# feed it!
		try:
			cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1})
		except UnicodeDecodeError, e:
			# For some reason, pytidylib fails to decode, whereas the
			# original html content converts perfectly manually.
			print e
			cvLattesHTML, errors = tidy_document(cvLattesHTML.encode('utf-8'), options={'numeric-entities':1})
			document = document.decode('utf-8')

Esempio n. 16

0

Mostra file

 def __init__(self):
     HTMLParser.__init__(self)
     self.link = ''

Esempio n. 17

0

Mostra file

File: count.py Progetto: francisdavey/wordcount

 def __init__(self):
     HTMLParser.__init__(self)
     self.started=True
     self.bad=False
     self.text=[]
     self.urls=[]

Esempio n. 18

0

Mostra file

	def __init__(self):
		HTMLParser.__init__(self)

Esempio n. 19

0

Mostra file

 def __init__(self):
     HTMLParser.__init__(self)  # http://stackoverflow.com/a/9698750
     self.start_title = 0
     self.title = ''
     self.stop_title = 0

Esempio n. 20

0

Mostra file

File: ComponentSourcerer.py Progetto: CookingWithCale/metascrapper

 def __init__(self, projectDirectory):
     HTMLParser.__init__(self)
     self.projectDirectory = Scrapper.cleanDirecoryPath(projectDirectory)

Esempio n. 21

0

Mostra file

File: Abbreviation.py Progetto: sixuanwang/SemanticComposition

 def __init__(self):
   HTMLParser.__init__(self)
   self.recording = 0
   self.data = []

Esempio n. 22

0

Mostra file

File: depuradorDOIhtml.py Progetto: BeatrizFerreira/DynamicLattes

	def __init__(self, rawDOIhtml):
		HTMLParser.__init__(self)
		self.dadosDaPublicacao = ""
		self.feed(rawDOIhtml)

Esempio n. 23

0

Mostra file

 def __init__(self, projectDirectory):
     HTMLParser.__init__(self)
     self.projectDirectory = Sourcerer.cleanDirecoryPath(projectDirectory)

Esempio n. 24

0

Mostra file

File: parserLattes.py Progetto: BeatrizFerreira/DynamicLattes

	def __init__(self, idMembro, cvLattesHTML):
		HTMLParser.__init__(self)

		# inicializacao obrigatoria
		self.idMembro = idMembro
		self.sexo = 'Masculino'

		self.item = ''
		self.listaIDLattesColaboradores = []
		self.listaFormacaoAcademica = []
		self.listaProjetoDePesquisa = []
		self.listaAreaDeAtuacao = []
		self.listaIdioma = []
		self.listaPremioOuTitulo = []

		self.listaArtigoEmPeriodico = []
		self.listaLivroPublicado = []
		self.listaCapituloDeLivroPublicado = []
		self.listaTextoEmJornalDeNoticia = []
		self.listaTrabalhoCompletoEmCongresso = []
		self.listaResumoExpandidoEmCongresso = []
		self.listaResumoEmCongresso = []
		self.listaArtigoAceito = []
		self.listaApresentacaoDeTrabalho = []
		self.listaOutroTipoDeProducaoBibliografica = []

		self.listaSoftwareComPatente = []
		self.listaSoftwareSemPatente = []
		self.listaProdutoTecnologico = []
		self.listaProcessoOuTecnica = []
		self.listaTrabalhoTecnico = []
		self.listaOutroTipoDeProducaoTecnica = []
		self.listaProducaoArtistica = []

		self.listaOASupervisaoDePosDoutorado = []
		self.listaOATeseDeDoutorado = []
		self.listaOADissertacaoDeMestrado = []
		self.listaOAMonografiaDeEspecializacao = []
		self.listaOATCC = []
		self.listaOAIniciacaoCientifica = []
		self.listaOAOutroTipoDeOrientacao = []

		self.listaOCSupervisaoDePosDoutorado = []
		self.listaOCTeseDeDoutorado = []
		self.listaOCDissertacaoDeMestrado = []
		self.listaOCMonografiaDeEspecializacao = []
		self.listaOCTCC = []
		self.listaOCIniciacaoCientifica = []
		self.listaOCOutroTipoDeOrientacao = []

		self.listaParticipacaoEmEvento = []
		self.listaOrganizacaoDeEvento = []


		# inicializacao para evitar a busca exaustiva de algumas palavras-chave
		self.salvarAtualizacaoCV = 1 
		self.salvarFoto = 1
		self.procurarCabecalho = 0
		self.achouGrupo = 0
		self.doi = ''
		self.relevante = 0
		self.idOrientando = ''

		# contornamos alguns erros do HTML da Plataforma Lattes
		cvLattesHTML = cvLattesHTML.replace("<![CDATA[","")
		cvLattesHTML = cvLattesHTML.replace("]]>","")

		# feed it!
		cvLattesHTML, errors = tidy_document(cvLattesHTML, options={'numeric-entities':1})
		#print errors
		#print cvLattesHTML.encode("utf8")

		## tentativa errada (não previsível)
		# options = dict(output_xhtml=1, add_xml_decl=1, indent=1, tidy_mark=0)
		# cvLattesHTML = str(tidy.parseString(cvLattesHTML, **options)).decode("utf8")

		self.feed(cvLattesHTML)

Esempio n. 25

0

Mostra file

File: 2htmlparser.py Progetto: asifhj/scripts

 def __init__(self):
     self.root = None
     self.tree = []
     HTMLParser.__init__(self)