Python Crawler.thenの例

プログラミング言語: Python

名前空間/パッケージ名: lib.crawler

クラス/型: Crawler

メソッド/関数: then

hotexamples.comのコード掲載数: 2

Python Crawler.then - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのlib.crawler.Crawler.thenの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Crawler(16)

grab_pagelinks_th_auto(3)

crawl(3)

set_did(3)

then(2)

crawl_and_save_articles_and_keywords(2)

crawl_link(1)

get_alinks(1)

get_all_created_pages_links(1)

add_to_list(1)

goto_pages(1)

grab_content_th_auto(1)

crawl_like(1)

logout(1)

start(1)

get_counter(1)

コード例 #1

ファイルを表示

]
print "initUrls", initUrls


def getCurFileName():
    filename = os.path.basename(__file__)
    return filename[0:filename.find(".")]


crawler = Crawler(initUrls, initDir, headers, getCurFileName())
print "crawler初始化成功"


def fn1(url):
    r = requests.get(url, headers=headers, timeout=100).text
    maxCount = BeautifulSoup(r,
                             'lxml').find('div',
                                          class_="page").find_all('a')[-2].text
    #     print maxCount
    page_urls = [url + "/" + str(i) for i in range(1, int(maxCount) + 1)]
    return page_urls


def fn2(url):
    r = requests.get(url, headers=headers, timeout=100).text
    return BeautifulSoup(r, 'lxml').find('div',
                                         class_="content").find('a').img['src']


crawler.then(fn1).then(fn2)

コード例 #2

ファイルを表示

}
# 最大208
initUrls=["http://jandan.net/ooxx/page-{num}#comments".format(num=num) for num in range(207,208)]
print "initUrls",initUrls
def getCurFileName():
    filename=os.path.basename(__file__)
    return filename[0:filename.find(".")]

crawler=Crawler(initUrls,initDir,headers,getCurFileName());
print "crawler初始化成功"
def fn1(url):
    arr=[]
    r = requests.get(url, headers=headers, timeout=100).text
    for father in BeautifulSoup(r, 'lxml').find_all('div',class_="row"):
        link=father.find("div",class_="text").img['src']
        arr.append('http:'+link)
    return arr
# def fn2(url):
#     r = requests.get(url, headers=headers, timeout=100).text
#     return BeautifulSoup(r, 'lxml').find('div',class_="content").find('a').img['src']
crawler.then(fn1)
# .then(fn2)