Python TidyReqData.req_to_dict 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: crawler_assist.tidy_req_data

클래스/타입: TidyReqData

메소드/함수: req_to_dict

hotexamples.com에서의 예제들: 4

Python TidyReqData.req_to_dict - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 crawler_assist.tidy_req_data.TidyReqData.req_to_dict에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

get_gzh_req_data(6)

flush_data(4)

req_to_dict(4)

get_nickname(2)

get_need_update_keys(1)

get_xcx_req_data(1)

insert_xcx_to_mongo(1)

set_offline_wechat_index_accounts(1)

set_redis_ttl(1)

예제 #1

파일 보기

 def process_request(self, request, spider):
     current_req_data = self.req_data_list[self.counter % self.wx_num]
     req_data = TidyReqData.req_to_dict(
         current_req_data['load_more']['req_data'])
     request.set_method(req_data['method'])
     req_data['url_param_dict']['offset'] = request.meta['list_offset']
     url = req_data['url'] + dict_to_str(req_data['url_param_dict'])
     request._set_url(url)
     request.set_headers(req_data['headers'])
     self.counter += 1
     return None

예제 #2

파일 보기

파일: crawl_article.py 프로젝트: zoogood2000/weixin_crawler

 def process_request(self, request, spider):
     current_req_data = self.req_data_list[self.counter % self.wx_num]
     req_data = TidyReqData.req_to_dict(
         current_req_data['content']['req_data'])
     url = request._get_url()
     raw_url = copy(url)
     if "https" in raw_url:
         raw_url = raw_url.replace("https", "http")
     request.set_ext_data({"raw_url": raw_url})
     if "https" not in url:
         url = url.replace("http", "https")
     request._set_url(url)
     request.set_method(req_data['method'])
     if "Cookie" in req_data['headers']:
         req_data['headers'].pop("Cookie")
     request.set_headers(req_data['headers'])
     self.counter += 1
     return None

예제 #3

파일 보기

파일: crawl_article.py 프로젝트: zhiying520/weixin_crawler

 def process_request(self, request, spider):
     current_req_data = self.req_data_list[self.counter % self.wx_num]
     req_data = TidyReqData.req_to_dict(
         current_req_data['getappmsgext']['req_data'])
     content_url = request._get_url()
     content_url_param_dict = str_to_dict(
         content_url.split('?')[-1], '&', '=')
     body_dict = req_data['body_dict']
     body_dict.update(content_url_param_dict)
     body_dict['comment_id'] = request.get_ext_data['comment_id']
     body_dict['is_need_reward'] = 1
     url = req_data['url'] + req_data['url_param_str']
     request._set_url(url)
     request.set_method(req_data['method'])
     request.set_headers(req_data['headers'])
     body_str = dict_to_str(body_dict)
     request._set_body(body_str)
     self.counter += 1
     return None

예제 #4

파일 보기

파일: crawl_article.py 프로젝트: zoogood2000/weixin_crawler

    def prepare_req_data(self, current_req_data, request, _type):
        """
        :param current_req_data: 本轮请求需要使用的请求参数
        :param request: Request对象
        :return: 准备爬取阅读数据的请求参数
        """
        request_data = {}

        if _type in ['getappmsgext', 'appmsg_comment']:
            req_data = TidyReqData.req_to_dict(
                current_req_data[_type]['req_data'])
        else:
            return request_data

        #根据原始文章的url构建body参数
        content_url = request._get_url()
        content_url_param_dict = str_to_dict(
            content_url.split('?')[-1], '&', '=')
        body_dict = copy(req_data['body_dict'])
        from tools.utils import update_dict_by_dict
        update_dict_by_dict(body_dict, content_url_param_dict,
                            ['mid', 'sn', 'idx', 'scene'])
        body_dict['comment_id'] = request.meta['comment_id']
        body_dict['is_need_reward'] = 1
        # 如果请求的是评论内容
        if "comment_id" in req_data['url_param_dict']:
            url_param_dict = copy(req_data['url_param_dict'])
            url_param_dict['comment_id'] = request.meta['comment_id']
            url_param_dict['idx'] = content_url_param_dict['idx']
            from tools.utils import dict_to_str
            url_param_str = dict_to_str(url_param_dict)
            request_data['url_str'] = req_data['url'] + url_param_str
        # 如果请求的是阅读量
        else:
            request_data[
                'url_str'] = req_data['url'] + req_data['url_param_str']
        request_data['header_dict'] = req_data['headers']
        request_data['body_dict'] = body_dict

        return request_data