Python ContentProcessor示例

编程语言: Python

命名空间/包名称: classifier.content_processor

类/类型: ContentProcessor

hotexamples.com的示例: 4

Python ContentProcessor - 已找到4个示例。这些是从开源项目中提取的最受好评的classifier.content_processor.ContentProcessor现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

ContentProcessor(1)

process_response(1)

示例#1

显示文件

文件： score_spider.py 项目： zanachka/onetera

class ScoreSpider(Spider):
    name = 'score'

    def __init__(self, *args, **kwargs):
        super(ScoreSpider, self).__init__(*args, **kwargs)
        self.contentprocessor = ContentProcessor(skip_text=False)
        self.job_config = {'disabled': True}
        self.classifier = None
        self.result_cb = None

    def set_process_info(self, process_info):
        self.process_info = process_info

    def set_result_callback(self, func):
        self.result_cb = func

    def configure(self, job_config):
        self.job_config = job_config
        if 'disabled' not in job_config:
            self.classifier = TopicClassifier.from_keywords(
                job_config['included'], job_config['excluded'])

    def spider_idle(self):
        self.log("Spider idle signal caught.")
        raise DontCloseSpider

    @classmethod
    def from_crawler(cls, crawler, *args, **kwargs):
        spider = cls(*args, **kwargs)
        spider._set_crawler(crawler)
        spider.crawler.signals.connect(spider.spider_idle,
                                       signal=signals.spider_idle)
        return spider

    def make_requests_from_url(self, url):
        r = super(ScoreSpider, self).make_requests_from_url(url)
        r.meta['score'] = self.get_score(r)
        return r

    def get_score(self, r):
        url_parts = urlparse_cached(r)
        path_parts = url_parts.path.split('/')
        return 1.0 / (len(path_parts) + 0.05 * len(r.url))

    def parse(self, response):
        pc = self.contentprocessor.process_response(response)
        if not pc:
            return
        if not self.classifier:
            raise Exception("Classifier not configured")

        response.meta['p_score'] = self.classifier.score_paragraphs(
            pc.paragraphs)
        response.meta['title'] = pc.title
        response.meta['descr'] = pc.meta_description
        response.meta['keywords'] = pc.meta_keywords

        if response.meta['p_score'] > 0:
            self.result_cb({
                'score': response.meta['p_score'],
                'url': response.url,
                'title': response.meta['title'],
                'descr': response.meta['descr'],
                'keywords': response.meta['keywords']
            })

        for link in pc.links:
            r = Request(url=link.url)
            r.meta.update(link_text=link.text)
            r.meta['score'] = self.get_score(r)
            yield r

示例#2

显示文件

文件： score_spider.py 项目： pombredanne/onetera

class ScoreSpider(Spider):
    name = 'score'

    def __init__(self, *args, **kwargs):
        super(ScoreSpider, self).__init__(*args, **kwargs)
        self.contentprocessor = ContentProcessor(skip_text=False)
        self.job_config = {'disabled': True}
        self.classifier = None
        self.result_cb = None

    def set_process_info(self, process_info):
        self.process_info = process_info

    def set_result_callback(self, func):
        self.result_cb = func

    def configure(self, job_config):
        self.job_config = job_config
        if 'disabled' not in job_config:
            self.classifier = TopicClassifier.from_keywords(job_config['included'], job_config['excluded'])

    def spider_idle(self):
        self.log("Spider idle signal caught.")
        raise DontCloseSpider

    @classmethod
    def from_crawler(cls, crawler, *args, **kwargs):
        spider = cls(*args, **kwargs)
        spider._set_crawler(crawler)
        spider.crawler.signals.connect(spider.spider_idle, signal=signals.spider_idle)
        return spider

    def make_requests_from_url(self, url):
        r = super(ScoreSpider, self).make_requests_from_url(url)
        r.meta['score'] = self.get_score(r)
        return r

    def get_score(self, r):
        url_parts = urlparse_cached(r)
        path_parts = url_parts.path.split('/')
        return 1.0 / (len(path_parts) + 0.05*len(r.url))

    def parse(self, response):
        pc = self.contentprocessor.process_response(response)
        if not pc:
            return
        if not self.classifier:
            raise Exception("Classifier not configured")

        response.meta['p_score'] = self.classifier.score_paragraphs(pc.paragraphs)
        response.meta['title'] = pc.title
        response.meta['descr'] = pc.meta_description
        response.meta['keywords'] = pc.meta_keywords

        if response.meta['p_score'] > 0:
            self.result_cb({
                'score': response.meta['p_score'],
                'url': response.url,
                'title': response.meta['title'],
                'descr': response.meta['descr'],
                'keywords': response.meta['keywords']
            })

        for link in pc.links:
            r = Request(url=link.url)
            r.meta.update(link_text=link.text)
            r.meta['score'] = self.get_score(r)
            yield r

示例#3

显示文件

文件： score_spider.py 项目： zanachka/onetera

 def __init__(self, *args, **kwargs):
     super(ScoreSpider, self).__init__(*args, **kwargs)
     self.contentprocessor = ContentProcessor(skip_text=False)
     self.job_config = {'disabled': True}
     self.classifier = None
     self.result_cb = None

示例#4

显示文件

文件： score_spider.py 项目： pombredanne/onetera

 def __init__(self, *args, **kwargs):
     super(ScoreSpider, self).__init__(*args, **kwargs)
     self.contentprocessor = ContentProcessor(skip_text=False)
     self.job_config = {'disabled': True}
     self.classifier = None
     self.result_cb = None