Exemplos de Extractor.Extractor em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: cola.core.extractor

Classe / Tipo: Extractor

Método / Função: Extractor

Exemplos em hotexamples.com: 2

Extractor.Extractor em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de cola.core.extractor.Extractor.Extractor em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

Extractor(2)

extract(2)

content(1)

title(1)

Métodos Frequentes

Extractor (2)

extract (2)

content (1)

title (1)

Exemplo n.º 1

0

Exibir arquivo

def parse(self, url=None): url = url or self.url html = self.opener.open(url) detecting = detect(html) if detecting['confidence'] > 0.5: encoding = detecting['encoding'] if encoding not in ('ascii', 'utf-8'): html = html.decode(encoding).encode('utf-8') base_url = host_for_url(url) if base_url is not None: base_url = 'http://%s' % base_url extractor = Extractor(html, base_url=base_url) title = extractor.title() links = [ node['href'] for node in extractor.content().find_all('a', href=True) ] if self.store: if self.extract: html = extractor.extract() try: doc = GenericDocument.objects.get(url=url) doc.title = title doc.content = html doc.update(upsert=True) except DoesNotExist: doc = GenericDocument(title=title, content=html, url=url) doc.save() return links

Exemplo n.º 2

0

Exibir arquivo

Arquivo: test_extractor.py Projeto: zzzz123321/cola

def testExtractor(self): extractor = Extractor(self.html, self.base_url) content = extractor.extract() self.assertGreater(len(content), 0)