Python Extractor.extract示例

编程语言: Python

命名空间/包名称: cola.core.extractor

类/类型: Extractor

方法/功能: extract

hotexamples.com的示例: 4

Python Extractor.extract - 已找到4个示例。这些是从开源项目中提取的最受好评的cola.core.extractor.Extractor.extract现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Extractor(2)

extract(2)

content(1)

title(1)

示例#1

显示文件

文件： __init__.py 项目： BUAA-DreamTeam/cola

    def parse(self, url=None):
        url = url or self.url
        html = self.opener.open(url)

        base_url = host_for_url(url)
        if base_url is not None:
            base_url = "http://%s" % base_url
        extractor = Extractor(html, base_url=base_url)

        title = extractor.title()
        links = [node["href"] for node in extractor.content().find_all("a", href=True)]

        if self.store:
            if self.extract:
                html = extractor.extract()

            try:
                doc = GenericDocument.objects.get(url=url)
                doc.title = title
                doc.content = html
                doc.update(upsert=True)
            except DoesNotExist:
                doc = GenericDocument(title=title, content=html, url=url)
                doc.save()

        return links

示例#2

显示文件

文件： __init__.py 项目： 0pengl/cola

 def parse(self, url=None):
     url = url or self.url
     html = self.opener.open(url)
     
     detecting = detect(html)
     if detecting['confidence'] > 0.5:
         encoding = detecting['encoding']
         if encoding not in ('ascii', 'utf-8'):
             html = html.decode(encoding).encode('utf-8')
     
     base_url = host_for_url(url)
     if base_url is not None:
         base_url = 'http://%s' % base_url
     extractor = Extractor(html, base_url=base_url)
     
     title = extractor.title()
     links = [node['href'] for node in extractor.content().find_all('a', href=True)]
     
     if self.store:
         if self.extract:
             html = extractor.extract()
         
         try:
             doc = GenericDocument.objects.get(url=url)
             doc.title = title
             doc.content = html
             doc.update(upsert=True)
         except DoesNotExist:
             doc = GenericDocument(title=title, content=html, url=url)
             doc.save()
         
     return links

示例#3

显示文件

    def parse(self, url=None):
        url = url or self.url
        html = self.opener.open(url)

        detecting = detect(html)
        if detecting['confidence'] > 0.5:
            encoding = detecting['encoding']
            if encoding not in ('ascii', 'utf-8'):
                html = html.decode(encoding).encode('utf-8')

        base_url = host_for_url(url)
        if base_url is not None:
            base_url = 'http://%s' % base_url
        extractor = Extractor(html, base_url=base_url)

        title = extractor.title()
        links = [
            node['href']
            for node in extractor.content().find_all('a', href=True)
        ]

        if self.store:
            if self.extract:
                html = extractor.extract()

            try:
                doc = GenericDocument.objects.get(url=url)
                doc.title = title
                doc.content = html
                doc.update(upsert=True)
            except DoesNotExist:
                doc = GenericDocument(title=title, content=html, url=url)
                doc.save()

        return links

示例#4

显示文件

文件： test_extractor.py 项目： zzzz123321/cola

 def testExtractor(self):
     extractor = Extractor(self.html, self.base_url)
     content = extractor.extract()
     self.assertGreater(len(content), 0)