Python extract_hrefs 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: demo_helpers

메소드/함수: extract_hrefs

hotexamples.com에서의 예제들: 3

Python extract_hrefs - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 demo_helpers.extract_hrefs에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: gevent_dqp_demo.py 프로젝트: reorx/learn_spider

def fetch_and_extract(url, data_queue):
    r = urllib2.urlopen(url)
    html = r.read()

    hrefs = demo_helpers.extract_hrefs(html)
    #print('fetch ', url, html, hrefs)
    data_queue.put_nowait((url, hrefs))

예제 #2

파일 보기

파일: gevent_tq_dq_demo.py 프로젝트: reorx/learn_spider

def url_worker(name, tq, dq):
    print('worker start', name)
    while True:
        url = tq.get()
        print('worker {} get {}'.format(name, url))

        r = urllib2.urlopen(url)
        html = r.read()

        hrefs = demo_helpers.extract_hrefs(html)

        dq.put_nowait((url, hrefs))

예제 #3

파일 보기

파일: gevent_tq_demo.py 프로젝트: reorx/learn_spider

def url_worker(name, processed_urls, add_to_all, q):
    print("worker start", name)
    while True:
        url = q.get()
        print("worker {} get {}".format(name, url))

        r = urllib2.urlopen(url)
        html = r.read()

        hrefs = demo_helpers.extract_hrefs(html)
        # print('fetch ', url, html, hrefs)
        for sub_url in hrefs:
            add_to_all(sub_url)
            if sub_url not in processed_urls:
                q.put_nowait(sub_url)

        if url in processed_urls:
            print("Duplicate processed url {}".format(url))
        else:
            processed_urls.add(url)
        q.task_done()