Ejemplos de get_urn en Python

Lenguaje de programación: Python

Namespace/Package Name: webcrawler.utils.url

Método / Función: get_urn

Ejemplos en hotexamples.com: 6

Python get_urn - 6 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de webcrawler.utils.url.get_urn extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Ejemplo n.º 1

Mostrar archivo

Archivo: solr.py Proyecto: kirschd/web-crawler

 def _read_data(self, spider, request):
     try:
         result = self.solr.search(q='id:{}'.format(get_urn(request.url)))
         doc = result.docs[0]
         return doc
     except Exception as e:
         return None

Ejemplo n.º 2

Mostrar archivo

    def process_item(self, item, spider):
        data = dict(item)
        data['updated'] = datetime.now()
        data = self.map_to_solr_datatypes(data=data)

        # print(data['pub_date_dt'], "================")
        if "pub_date_dt" in data.keys():
            del data['pub_date_dt']

        data['id'] = self.clean_str(get_urn(data['url_s']))
        self.solr.add([data])
        return item

Ejemplo n.º 3

Mostrar archivo

Archivo: elasticsearch.py Proyecto: djalmabright/web-crawler-plus

 def store_response(self, spider, request, response):
     data = {
         'status':
         response.status,
         'domain':
         get_domain(response.url),
         'url':
         response.url,
         'html':
         str(response.body).lstrip("b'").strip("'").replace(
             "\\n", "").replace("\\t", "").replace("\\\\", "\\"),
         'created':
         datetime.now()
     }
     data.update(
         self._flatten_headers(self._clean_headers(response.headers)))
     WebLink(meta={'id': get_urn(response.url)}, **data).save()

Ejemplo n.º 4

Mostrar archivo

Archivo: solr.py Proyecto: kirschd/web-crawler

    def store_response(self, spider, request, response):
        data = {
            'status':
            response.status,
            'domain':
            get_domain(response.url),
            'url':
            response.url,
            'html':
            str(response.body).lstrip("b'").strip("'").replace(
                "\\n", "").replace("\\t", "").replace("\\\\", "\\"),
            'created':
            datetime.now()
        }
        data.update(
            self._flatten_headers(self._clean_headers(response.headers)))

        data = self.map_to_solr_datatypes(data=data)
        data['id'] = get_urn(response.url)
        self.solr.add([data])

Ejemplo n.º 5

Mostrar archivo

Archivo: elasticsearch.py Proyecto: kirschd/web-crawler

 def process_item(self, item, spider):
     data = dict(item)
     data['updated'] = datetime.now()
     WebLinkExtracted(meta={'id': get_urn(data['url'])}, **data).save()
     return item

Ejemplo n.º 6

Mostrar archivo

Archivo: elasticsearch.py Proyecto: djalmabright/web-crawler-plus

 def _read_data(self, spider, request):
     try:
         return WebLink.get(id=get_urn(request.url)).to_dict()
     except Exception as e:
         return None