Python Crawler.run 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: crawler.crawler

클래스/타입: Crawler

메소드/함수: run

hotexamples.com에서의 예제들: 7

Python Crawler.run - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 crawler.crawler.Crawler.run에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Crawler(30)

crawl(20)

close(7)

run(6)

start(5)

load_and_tokenize(3)

__init__(3)

attempt_login(2)

stop(2)

fetch_stock_data(2)

scrape(2)

max_depth(1)

retrieve_user_comments(1)

raw_report(1)

report(1)

retrieve_information(1)

retrieve_total_user_comments_score(1)

retrieve_user_avg_karma(1)

progress_bar(1)

scan(1)

retrieve_user_posts(1)

return_all_content(1)

save_found_weburls(1)

launch(1)

scrape_links(1)

search(1)

soupify(1)

start_bfs(1)

start_dfs(1)

start_poll(1)

steps_count(1)

learn(1)

get_tag_by_id(1)

get_user_by_post_id(1)

getMostFrequentWords(1)

add_rules(1)

add_seeds(1)

build_post_data(1)

crawl_dest(1)

crawl_files(1)

crawl_next_url(1)

create_remote_dir(1)

documents(1)

fetch_case_detail_link(1)

fill_disallow_urls(1)

find_all_urls(1)

getText(1)

get_url(1)

get_8k_form(1)

get_dependency_list(1)

예제 #1

파일 보기

def main():
    parser = Parser(HTML.REDIS, PARSER.ELASTICSEARCH)
    """Crawler start"""
    crawler = Crawler(DB.MYSQL, HTML.REDIS, parser)

    try:
        crawler.run()
    except KeyboardInterrupt:
        crawler.stop()
        sys.exit(0)

예제 #2

파일 보기

def launch(dir_for_docs, dir_checkpoints, checkpoints_name, description_file,
           lock, inv_index, frontier, documents, step_count):
    crawler = Crawler(frontier, dir_for_docs, dir_checkpoints, checkpoints_name, lock, inv_index, description_file)
    if documents is None:
        open(crawler.file_description, 'w').close()  # Wipe file
    else:
        crawler.documents = documents
    if step_count is not None:
        crawler.steps_count = step_count

    crawler.run()

예제 #3

파일 보기

파일: commander.py 프로젝트: DataEngDev/KaiJi-Crawler

    def start(self):
        for game_type, crawl_range in self.crawl_range().items():
            crawler = Crawler(game_type)
            for date in pd.date_range(start=crawl_range["begin"],
                                      end=crawl_range["end"]):
                logging.debug(f"command: crawling {game_type} at {date}")
                crawler.run(self.format_date(date))

                # random sleep
                time.sleep(
                    abs(
                        np.random.normal(
                            self.config["commander"]["queryPeriod"])))

예제 #4

파일 보기

파일: views.py 프로젝트: alexanderad/Super-Cow-Task-Force

def quick_test(request):
    """ quick test page """
    form, results, url_to_test = None, None, u''    
    if "POST" == request.method:
        form = QuickTestCheckForm(request.POST)
        if form.is_valid():
            url_to_test = form.cleaned_data["url"] 

    if "url-to-test" in request.session:
        url_to_test = request.session.pop("url-to-test")

    if url_to_test:
        # lets check
        c = Crawler(url_to_test)
        raw_results = c.run()
        results = {"error": raw_results["error"],
                   "results_by_category": ((u'External links', 'ext', raw_results["external"], len(raw_results["external"]["web"]) + len(raw_results["external"]["img"])),
                                           (u'Internal links', 'int', raw_results["internal"], len(raw_results["internal"]["web"]) + len(raw_results["internal"]["img"])),
                                           (u'System', 'system', raw_results["system"], len(raw_results["system"]["css"]) + len(raw_results["system"]["js"])),
            )
        }
    if form is None:
        initial = {}
        if url_to_test:
            initial.update({"url": url_to_test})
        form = QuickTestCheckForm(initial=initial)
    return render_to_response('index/quick-test.html', {"form": form, "results": results}, context_instance=RequestContext(request))

예제 #5

파일 보기

def crawler_sqlmap(entry_url,
                   depth=-1,
                   level=1,
                   threads=2,
                   timeout=30,
                   checkhost=True):
    """启动sqlmap扫描的入口函数。

    :param entry_url: 扫描网站的入口地址
    :param depth: 网页爬虫爬取页面深度，－1则表示不设置深度，默认－1
    :param level: sqlmap扫描测试等级：1-5（默认为1），等级越高使用的测试样例越多，结果越精确，时间也越长
    :param threads: sqlmap多线程扫描设置（默认为2）
    :param timeout: sqlmap扫描超时时间（默认30s）
    :param checkhost: 检查爬取链接是否属于同一域
    :return: 返回值为四元组（ret, url, simple, content）
            ret: 执行结果, False为失败, True为成功
            url: 扫描目标地址
            simple: 解析content抽取重要数据生成的报告，字典类型
            content: sqlmap返回的完整报告，字典类型
            若执行结果为False，那么把扫描错误信息存在扫描关键结果（simple）这个位置
    """
    settings = Setting(handle=False)
    settings.depth = depth
    settings.nocheckhost = not checkhost
    settings.level = level
    settings.threads = threads
    settings.timeout = timeout

    sqlmap, crawler = None, None
    try:
        sqlmap, ip, port = start_sqlmap()
        # crawler的创建必须在sqlmap启动之后, 才能正确获取sqlmap的端口号
        crawler = Crawler(BASE_DIR, ip, port, entry_url, setting=settings)
        crawler.run()
        cont, simple = crawler.raw_report()
        return True, entry_url, simple, cont
    except:
        logger.error(traceback.format_exc())
        return False, entry_url, traceback.format_exc(), {}
    finally:
        if crawler: crawler.close()
        if sqlmap: sqlmap.terminate()

예제 #6

파일 보기

from crawler.crawler import Crawler

if __name__ == '__main__':
    crawler = Crawler()
    crawler.run()

예제 #7

파일 보기

def main():
    crawler = Crawler(num_workers=NUM_WORKERS, domain=DOMAIN)
    crawler.run()