Python Crawlerの例

プログラミング言語: Python

名前空間/パッケージ名: crawlerlib

クラス/型: Crawler

hotexamples.comのコード掲載数: 2

Python Crawler - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのcrawlerlib.Crawlerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

addSearchEngineUrl(1)

addUrlList(1)

crawlAllUrl(1)

crawlUrl(1)

flush(1)

loadRecord(1)

コード例 #1

ファイルを表示

ファイル: main.py プロジェクト: Neil-Liang/Migrate_From_Google_Code

def crawl():  
    crawler = Crawler()
    crawler.crawlAllUrl(FLAG_OUTPUT2DISK,CRAWL_AMOUNT_LIMIT)

コード例 #2

ファイルを表示

ファイル: main.py プロジェクト: Neil-Liang/Migrate_From_Google_Code

def main():
    initResult = init.initGlobal()
    crawler = Crawler()
    if(initResult != False):
        #input
        print("Please enter your keyword")
        keyword = raw_input()
        keyword = keyword.replace(' ','+')
        
        #start crawling from search engine
        crawler = Crawler()
        startTime = time.time()
        crawler.loadRecord(LOG_OF_CRAWLED_URL)
        crawler.loadRecord(LOG_OF_CRAWLED_CONTENT)
        crawler.addSearchEngineUrl(keyword)
        htmlcode = crawler.crawlUrl(GOOGLE)
        parser = LinkParser()
        parser.setFlag(GOOGLE)
        parser.feed(htmlcode)
        top10 = parser.hrefsList
        crawler.addUrlList(top10,GOOGLE)

        parser.close()
        threadPool = []
        #   run the work with THREAD_NUM threads
        while len(threadPool) <= THREAD_NUM:
            th = threading.Thread(None,crawl)
            threadPool.append(th)
            
        for item in threadPool:
            item.start()  
        for item in threadPool:
            item.join()
              
        crawler.flush()
        endTime = time.time()
        print("time used:")
        print(endTime-startTime)
        keyword = raw_input()