Esempi in Python per slugify, esempi in Python per sky.helper.slugify

Esempio n. 1

0

Mostra file

 def save_bulk_data(self, data):
     for url_id in data:
         doc_id = slugify(url_id)
         self.es.index(id=doc_id,
                       body=data[url_id],
                       doc_type='document',
                       index=self.project_name + "-crawler-documents")

Esempio n. 2

0

Mostra file

 def get_seen_urls(self):
     slugged_url = slugify(self.plugin_name)
     seen_urls = set()
     for fn in os.listdir(self.server['documents']):
         if slugged_url in fn:
             with open(os.path.join(self.server['documents'], fn)) as f:
                 seen_urls.add(json.load(f)['url'])
     return seen_urls

Esempio n. 3

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def get_seen_urls(self):
     slugged_url = slugify(self.plugin_name)
     seen_urls = set()
     for fn in os.listdir(self.server['documents']):
         if slugged_url in fn:
             with open(os.path.join(self.server['documents'], fn)) as f:
                 seen_urls.add(json.load(f)['url'])
     return seen_urls

Esempio n. 4

0

Mostra file

File: cache.py Progetto: bgarrels/sky

 def load_index(self):
     cache_data = {}
     for fn in os.listdir(self.server['cache']):
         slugged_plugin = slugify(self.plugin_name)
         for fn in os.listdir(self.server['cache']):
             if slugged_plugin in fn:
                 cache_data[fn] = False
     self.dict = cache_data

Esempio n. 5

0

Mostra file

File: crawler_plugins.py Progetto: mahendraprabhu/sky

 def save_bulk_data(self, data):
     for url_id in data:
         data[url_id]['_id'] = slugify(url_id)
     # save bulk per max 10k per time
     for chunk in chunker(data.values(), 10000):
         if not chunk:
             return
         self.dbs['documents'].bulk_docs(*[x for x in chunk if x is not None]).result()

Esempio n. 6

0

Mostra file

 def save_bulk_data(self, data):
     for url_id in data:
         data[url_id]['_id'] = slugify(url_id)
     # save bulk per max 10k per time
     for chunk in chunker(data.values(), 10000):
         if not chunk:
             return
         self.dbs['documents'].bulk_docs(
             *[x for x in chunk if x is not None]).result()

Esempio n. 7

0

Mostra file

 def get_documents(self, maximum_number_of_documents=1000000):
     slugged_url = slugify(self.plugin_name)
     results = {}
     for num, fn in enumerate(os.listdir(self.server['documents'])):
         if num == maximum_number_of_documents:
             break
         if slugged_url in fn:
             with open(os.path.join(self.server['documents'], fn)) as f:
                 results[slugged_url] = json.load(f)
     return results

Esempio n. 8

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def get_documents(self, maximum_number_of_documents=1000000):
     slugged_url = slugify(self.plugin_name)
     results = []
     for num, fn in enumerate(os.listdir(self.server['documents'])):
         if num == maximum_number_of_documents:
             break
         if slugged_url in fn:
             with open(os.path.join(self.server['documents'], fn)) as f:
                 results.append(json.load(f))
     return results

Esempio n. 9

0

Mostra file

    def init_cache_storage(self):
        root = self.storage_object['path']

        self.prefix = slugify(self.plugin_name)

        self.server = {'cache':
                       os.path.join(root, self.project_name + '-crawler-cache', self.prefix)}

        if self.flush_cache:
            self.delete_cache()

        for paths in self.server.values():
            os.makedirs(paths, exist_ok=True)

Esempio n. 10

0

Mostra file

 def save_data(self, data):
     self.server['documents'][slugify(data['url'])] = data
     transaction.commit()

Esempio n. 11

0

Mostra file

 def save_bulk_data(self, data):
     for url_id in data:
         self.server['documents'][slugify(url_id)] = data[url_id]
     transaction.commit()

Esempio n. 12

0

Mostra file

 def save_data(self, data):
     with open(os.path.join(self.server['documents'], slugify(data['url'])),
               'w') as f:
         json.dump(data, f)

Esempio n. 13

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_bulk_data(self, data):
     for url_id in data:
         doc_id = slugify(url_id)
         self.es.index(id=doc_id, body=data[url_id], doc_type='document',
                       index=self.project_name + "-crawler-documents")

Esempio n. 14

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_bulk_data(self, data):
     for url_id in data:
         data[url_id]['_id'] = slugify(url_id)
     return self.dbs['documents'].bulk_docs(*list(data.values())).result()

Esempio n. 15

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_data(self, data):
     with open(os.path.join(self.server['documents'], slugify(data['url'])), 'w') as f:
         json.dump(data, f)

Esempio n. 16

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_bulk_data(self, data):
     for url_id in data:
         self.server['documents'][slugify(url_id)] = data[url_id]
     transaction.commit()

Esempio n. 17

0

Mostra file

 def delete_doc_url(self, url=None):
     return self.delete_doc_id(slugify(url))

Esempio n. 18

0

Mostra file

 def save_bulk_data(self, data):
     for row in data:
         with open(
                 os.path.join(self.server['documents'],
                              slugify(data[row]['url'])), 'w') as f:
             json.dump(data[row], f)

Esempio n. 19

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_data(self, data):
     self.server['documents'][slugify(data['url'])] = data
     transaction.commit()

Esempio n. 20

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_bulk_data(self, data):
     for row in data:
         with open(os.path.join(self.server['documents'], slugify(data[row]['url'])), 'w') as f:
             json.dump(data[row], f)

Esempio n. 21

0

Mostra file

 def save_data(self, data):
     self.es.index(index=self.project_name + "-crawler-documents",
                   doc_type='document',
                   id=slugify(data['url']),
                   body=data)

Esempio n. 22

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_data(self, data):
     try:
         self.dbs['documents'][slugify(data['url'])] = data
     except requests.exceptions.HTTPError:
         print('conflict error', slugify(data['url']))

Esempio n. 23

0

Mostra file

File: crawler_plugins.py Progetto: bgarrels/sky

 def save_data(self, data):
     self.es.index(index=self.project_name + "-crawler-documents", doc_type='document',
                   id=slugify(data['url']), body=data)

Esempio n. 24

0

Mostra file

 def save_data(self, data):
     try:
         self.dbs['documents'][slugify(data['url'])] = data
     except requests.exceptions.HTTPError:
         print('conflict error', slugify(data['url']))

Esempio n. 25

0

Mostra file

File: crawler_services.py Progetto: shivamvats/sky

 def delete_doc_url(self, url=None):
     return self.delete_doc_id(slugify(url))