Python get_urn примеры использования

Язык программирования: Python

Пространство имен/Пакет: webcrawler.utils.url

Метод/Функция: get_urn

Примеров на hotexamples.com: 6

Python get_urn - 6 примеров найдено. Это лучшие примеры Python кода для webcrawler.utils.url.get_urn, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

Файл: solr.py Проект: kirschd/web-crawler

 def _read_data(self, spider, request):
     try:
         result = self.solr.search(q='id:{}'.format(get_urn(request.url)))
         doc = result.docs[0]
         return doc
     except Exception as e:
         return None

Пример #2

Показать файл

    def process_item(self, item, spider):
        data = dict(item)
        data['updated'] = datetime.now()
        data = self.map_to_solr_datatypes(data=data)

        # print(data['pub_date_dt'], "================")
        if "pub_date_dt" in data.keys():
            del data['pub_date_dt']

        data['id'] = self.clean_str(get_urn(data['url_s']))
        self.solr.add([data])
        return item

Пример #3

Показать файл

Файл: elasticsearch.py Проект: djalmabright/web-crawler-plus

 def store_response(self, spider, request, response):
     data = {
         'status':
         response.status,
         'domain':
         get_domain(response.url),
         'url':
         response.url,
         'html':
         str(response.body).lstrip("b'").strip("'").replace(
             "\\n", "").replace("\\t", "").replace("\\\\", "\\"),
         'created':
         datetime.now()
     }
     data.update(
         self._flatten_headers(self._clean_headers(response.headers)))
     WebLink(meta={'id': get_urn(response.url)}, **data).save()

Пример #4

Показать файл

Файл: solr.py Проект: kirschd/web-crawler

    def store_response(self, spider, request, response):
        data = {
            'status':
            response.status,
            'domain':
            get_domain(response.url),
            'url':
            response.url,
            'html':
            str(response.body).lstrip("b'").strip("'").replace(
                "\\n", "").replace("\\t", "").replace("\\\\", "\\"),
            'created':
            datetime.now()
        }
        data.update(
            self._flatten_headers(self._clean_headers(response.headers)))

        data = self.map_to_solr_datatypes(data=data)
        data['id'] = get_urn(response.url)
        self.solr.add([data])

Пример #5

Показать файл

Файл: elasticsearch.py Проект: kirschd/web-crawler

 def process_item(self, item, spider):
     data = dict(item)
     data['updated'] = datetime.now()
     WebLinkExtracted(meta={'id': get_urn(data['url'])}, **data).save()
     return item

Пример #6

Показать файл

Файл: elasticsearch.py Проект: djalmabright/web-crawler-plus

 def _read_data(self, spider, request):
     try:
         return WebLink.get(id=get_urn(request.url)).to_dict()
     except Exception as e:
         return None