Python Crawler.run примеры использования

Язык программирования: Python

Пространство имен/Пакет: crawler.crawler

Класс/Тип: Crawler

Метод/Функция: run

Примеров на hotexamples.com: 7

Python Crawler.run - 7 примеров найдено. Это лучшие примеры Python кода для crawler.crawler.Crawler.run, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Crawler(30)

crawl(20)

close(7)

run(6)

start(5)

load_and_tokenize(3)

__init__(3)

attempt_login(2)

stop(2)

fetch_stock_data(2)

scrape(2)

max_depth(1)

retrieve_user_comments(1)

raw_report(1)

report(1)

retrieve_information(1)

retrieve_total_user_comments_score(1)

retrieve_user_avg_karma(1)

progress_bar(1)

scan(1)

retrieve_user_posts(1)

return_all_content(1)

save_found_weburls(1)

launch(1)

scrape_links(1)

search(1)

soupify(1)

start_bfs(1)

start_dfs(1)

start_poll(1)

steps_count(1)

learn(1)

get_tag_by_id(1)

get_user_by_post_id(1)

getMostFrequentWords(1)

add_rules(1)

add_seeds(1)

build_post_data(1)

crawl_dest(1)

crawl_files(1)

crawl_next_url(1)

create_remote_dir(1)

documents(1)

fetch_case_detail_link(1)

fill_disallow_urls(1)

find_all_urls(1)

getText(1)

get_url(1)

get_8k_form(1)

get_dependency_list(1)

Пример #1

Показать файл

def main():
    parser = Parser(HTML.REDIS, PARSER.ELASTICSEARCH)
    """Crawler start"""
    crawler = Crawler(DB.MYSQL, HTML.REDIS, parser)

    try:
        crawler.run()
    except KeyboardInterrupt:
        crawler.stop()
        sys.exit(0)

Пример #2

Показать файл

def launch(dir_for_docs, dir_checkpoints, checkpoints_name, description_file,
           lock, inv_index, frontier, documents, step_count):
    crawler = Crawler(frontier, dir_for_docs, dir_checkpoints, checkpoints_name, lock, inv_index, description_file)
    if documents is None:
        open(crawler.file_description, 'w').close()  # Wipe file
    else:
        crawler.documents = documents
    if step_count is not None:
        crawler.steps_count = step_count

    crawler.run()

Пример #3

Показать файл

Файл: commander.py Проект: DataEngDev/KaiJi-Crawler

    def start(self):
        for game_type, crawl_range in self.crawl_range().items():
            crawler = Crawler(game_type)
            for date in pd.date_range(start=crawl_range["begin"],
                                      end=crawl_range["end"]):
                logging.debug(f"command: crawling {game_type} at {date}")
                crawler.run(self.format_date(date))

                # random sleep
                time.sleep(
                    abs(
                        np.random.normal(
                            self.config["commander"]["queryPeriod"])))

Пример #4

Показать файл

Файл: views.py Проект: alexanderad/Super-Cow-Task-Force

def quick_test(request):
    """ quick test page """
    form, results, url_to_test = None, None, u''    
    if "POST" == request.method:
        form = QuickTestCheckForm(request.POST)
        if form.is_valid():
            url_to_test = form.cleaned_data["url"] 

    if "url-to-test" in request.session:
        url_to_test = request.session.pop("url-to-test")

    if url_to_test:
        # lets check
        c = Crawler(url_to_test)
        raw_results = c.run()
        results = {"error": raw_results["error"],
                   "results_by_category": ((u'External links', 'ext', raw_results["external"], len(raw_results["external"]["web"]) + len(raw_results["external"]["img"])),
                                           (u'Internal links', 'int', raw_results["internal"], len(raw_results["internal"]["web"]) + len(raw_results["internal"]["img"])),
                                           (u'System', 'system', raw_results["system"], len(raw_results["system"]["css"]) + len(raw_results["system"]["js"])),
            )
        }
    if form is None:
        initial = {}
        if url_to_test:
            initial.update({"url": url_to_test})
        form = QuickTestCheckForm(initial=initial)
    return render_to_response('index/quick-test.html', {"form": form, "results": results}, context_instance=RequestContext(request))

Пример #5

Показать файл

def crawler_sqlmap(entry_url,
                   depth=-1,
                   level=1,
                   threads=2,
                   timeout=30,
                   checkhost=True):
    """启动sqlmap扫描的入口函数。

    :param entry_url: 扫描网站的入口地址
    :param depth: 网页爬虫爬取页面深度，－1则表示不设置深度，默认－1
    :param level: sqlmap扫描测试等级：1-5（默认为1），等级越高使用的测试样例越多，结果越精确，时间也越长
    :param threads: sqlmap多线程扫描设置（默认为2）
    :param timeout: sqlmap扫描超时时间（默认30s）
    :param checkhost: 检查爬取链接是否属于同一域
    :return: 返回值为四元组（ret, url, simple, content）
            ret: 执行结果, False为失败, True为成功
            url: 扫描目标地址
            simple: 解析content抽取重要数据生成的报告，字典类型
            content: sqlmap返回的完整报告，字典类型
            若执行结果为False，那么把扫描错误信息存在扫描关键结果（simple）这个位置
    """
    settings = Setting(handle=False)
    settings.depth = depth
    settings.nocheckhost = not checkhost
    settings.level = level
    settings.threads = threads
    settings.timeout = timeout

    sqlmap, crawler = None, None
    try:
        sqlmap, ip, port = start_sqlmap()
        # crawler的创建必须在sqlmap启动之后, 才能正确获取sqlmap的端口号
        crawler = Crawler(BASE_DIR, ip, port, entry_url, setting=settings)
        crawler.run()
        cont, simple = crawler.raw_report()
        return True, entry_url, simple, cont
    except:
        logger.error(traceback.format_exc())
        return False, entry_url, traceback.format_exc(), {}
    finally:
        if crawler: crawler.close()
        if sqlmap: sqlmap.terminate()

Пример #6

Показать файл

from crawler.crawler import Crawler

if __name__ == '__main__':
    crawler = Crawler()
    crawler.run()

Пример #7

Показать файл

def main():
    crawler = Crawler(num_workers=NUM_WORKERS, domain=DOMAIN)
    crawler.run()