Ejemplos de Crawler en Python

Lenguaje de programación: Python

Namespace/Package Name: crawlers.crawler

Clase / Tipo: Crawler

Ejemplos en hotexamples.com: 15

Python Crawler - 15 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de crawlers.crawler.Crawler extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

get_screen_name(5)

__init__(3)

Crawler(2)

log_error(2)

Ejemplo n.º 1

Mostrar archivo

 def __init__(self, db_record=None):
     Crawler.__init__(self,
                      db_record,
                      self.origin,
                      self.base_url,
                      self.domain,
                      nested_scrape=False)

Ejemplo n.º 2

Mostrar archivo

    def __init__(self, db_record=None):

        Crawler.__init__(self,
                         db_record,
                         self.origin,
                         self.base_url,
                         self.domain,
                         first_page_url=self.first_page_url)

Ejemplo n.º 3

Mostrar archivo

Archivo: insta.py Proyecto: sapozhnikov-v/crawlers

 def try_except_function(self, *args, **kwargs):
     for i in range(10):
         try:
             results = func(self, *args, **kwargs)
             return results
         except (ClientError, Exception) as e:
             Crawler.log_error(e)
             if 'Not Found' in str(e):
                 raise ValueError('Профиль не найден')
             time.sleep(5)
             continue

Ejemplo n.º 4

Mostrar archivo

def main():
    configure_logging(settings={
        'LOG_LEVEL': 'INFO'
    })
    logging.basicConfig(level=logging.INFO)
    
    Crawler().run_newsletter()
    subscriber_list = Subscriber.get_contacts()
    MailSender().send(subscriber_list)

Ejemplo n.º 5

Mostrar archivo

Archivo: insta.py Proyecto: sapozhnikov-v/crawlers

 def get_subscribers_count(self, link, internal_id=None):
     screen_name = Crawler.get_screen_name(link)
     info = self.get_raw_info(screen_name=screen_name)
     subscribers = {
         'updated_at':
         datetime.now().astimezone().strftime('%Y-%m-%dT%H:%M:%S%z'),
         'count_subscribers':
         info['edge_followed_by']['count']
     }
     return subscribers

Ejemplo n.º 6

Mostrar archivo

 def __request_json(self, url):
     for i in range(5):
         try:
             query = requests.get(url, headers=self.get_headers)
             if query.status_code == 200:
                 return ujson.loads(query.text)
             elif query.status_code == 403 or query.status_code == 429:
                 logging.warning(
                     f'Ошибка {query.status_code}. Возможно, невалидный токен'
                 )
                 self.guest_token = self.get_tokens()
             else:
                 raise RequestError(
                     f'Ошибка {query.status_code} при запросе JSON')
         except RequestError as e:
             time.sleep(self.delay_after_request_error)
             Crawler.log_error(e)
         except (URLError, ConnectionError, Exception) as e:
             time.sleep(self.delay_after_request_error)
             Crawler.log_error(e)
     raise GetInfoError('Не удается получить информацию об источнике')

Ejemplo n.º 7

Mostrar archivo

 def get_subscribers_count(self, link, internal_id=None):
     screen_name = Crawler.get_screen_name(link)
     user_info = self.get_raw_info(screen_name=screen_name)
     key_exist = 'legacy' in user_info['data']['user']
     if not key_exist:
         raise GetInfoError(f'Ошибка получения подписчиков')
     info = user_info['data']['user']['legacy']
     subscribers = {
         'updated_at':
         datetime.now().astimezone().strftime('%Y-%m-%dT%H:%M:%S%z'),
         'count_subscribers':
         info['followers_count']
     }
     return subscribers

Ejemplo n.º 8

Mostrar archivo

Archivo: insta.py Proyecto: sapozhnikov-v/crawlers

 def get_info(self, link, internal_id=None):
     screen_name = Crawler.get_screen_name(link)
     info = self.get_raw_info(screen_name=screen_name)
     parsed_info = {
         'name': info['full_name'],
         'link': f'https://www.instagram.com/{info["username"]}',
         'internal_id': info['id'],
         'avatar': info['profile_pic_url'],
         'type_social': 'IN',
     }
     if info['full_name'] == '':
         parsed_info.update({'name': info['username']})
     if not parsed_info['avatar']:
         parsed_info.update({'avatar': info['profile_pic_url_hd']})
     return parsed_info

Ejemplo n.º 9

Mostrar archivo

 def get_info(self, link, internal_id=None):
     screen_name = Crawler.get_screen_name(link)
     user_info = self.get_raw_info(screen_name=screen_name)
     user_id = user_info['data']['user']['rest_id']
     key_exist = 'legacy' in user_info['data']['user']
     if not key_exist:
         raise GetInfoError(f'Ошибка получения информации об аккаунте')
     info = user_info['data']['user']['legacy']
     parsed_info = {
         'name': info['name'],
         'link': f'https://twitter.com/{info["screen_name"]}',
         'internal_id': str(user_id),
         'avatar': (info['profile_image_url_https']).replace('_normal', ''),
         'type_social': 'TW',
     }
     if info['name'] == '':
         parsed_info.update({'name': info['screen_name']})
     return parsed_info

Ejemplo n.º 10

Mostrar archivo

Archivo: crawl.py Proyecto: npavan063/StockSearch

    def __init__(self, db_record=None):

        Crawler.__init__(self, db_record, self.origin, self.base_url, self.domain, nested_scrape=False)

Ejemplo n.º 11

Mostrar archivo

Archivo: crawl.py Proyecto: npavan063/StockSearch

    def __init__(self, db_record=None):

        Crawler.__init__(self, db_record, self.origin, self.base_url, self.domain)

Ejemplo n.º 12

Mostrar archivo

Archivo: crawl.py Proyecto: npavan063/StockSearch

    def __init__(self, db_record=None):

        Crawler.__init__(self, db_record, self.origin, self.base_url, self.domain, first_page_url=self.first_page_url)

Ejemplo n.º 13

Mostrar archivo

def main():
    Crawler(baseurl="https://movie.douban.com/top250?start=",
            save_path="database/douban_top250.db",
            max_page=10,
            max_per_page=25,
            patterns=DoubanPatterns).get_data().savedata()

Ejemplo n.º 14

Mostrar archivo

    def __init__(self, db_record=None):

        Crawler.__init__(self, db_record, self.origin, self.base_url, self.domain)

Ejemplo n.º 15

Mostrar archivo

Archivo: insta.py Proyecto: sapozhnikov-v/crawlers

 def get_internal_id(self, link):
     screen_name = Crawler.get_screen_name(link)
     info = self.get_raw_info(screen_name=screen_name)
     return info['id']