Python TranscriptScraper.extract_monologuesの例

プログラミング言語: Python

名前空間/パッケージ名: scraper.Transcript

クラス/型: TranscriptScraper

メソッド/関数: extract_monologues

hotexamples.comのコード掲載数: 2

Python TranscriptScraper.extract_monologues - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのscraper.Transcript.TranscriptScraper.extract_monologuesの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

extract_monologues(2)

extract_messages_from_monologues(1)

get_first_day(1)

get_next_day(1)

get_pager(1)

コード例 #1

ファイルを表示

ファイル: file_extractor.py プロジェクト: cloud101/StackExchangeChatScraper

#keep a list which contains all URLs we need to fetch and process
process_list = set()
#keep a list of URLs which have already been processed so we do not fetch the same page twice
process_list.add(scraper.get_first_day())
processed_list = list()
#change headers for SE so they know if I cause load
headers = {
            'User-Agent': 'ChatExchangeScraper - contact Lucas Kauffman',
                }


x = 0

try:
		for root, dirs, files in os.walk("/home/lucas/dmz"):
			for file in files:
				if file.endswith(".html"):
					 with open(os.path.join(root, file)) as FILE:
						 response = FILE.read()
						 #a monologue can contain several messages
						 monologues = scraper.extract_monologues(response)
						 messages = scraper.extract_messages_from_monologues(monologues)
                                                 count = response.count('id="message')
                                                 if len(messages) != count:
                                                     print "count = %s"%count+ " messages = %s"% len(messages) +" FILe="+file
   						 ElasticManager.index_messages(messages)
                                                 x = x +1
except Exception, e:
        logger.exception(e)

コード例 #2

ファイルを表示

ファイル: scrape_dmz.file.py プロジェクト: cloud101/StackExchangeChatScraper

process_list = set()
#keep a list of URLs which have already been processed so we do not fetch the same page twice
process_list.add(scraper.get_first_day())
processed_list = list()
#change headers for SE so they know if I cause load
headers = {
            'User-Agent': 'ChatExchangeScraper - contact Lucas Kauffman',
                }


while process_list:
    sleep(2)
    try:
         url = process_list.pop()
         logger.info("Processing: %s"% url)
         processed_list.append(url)
         response = requests.get(url)
         next_day = scraper.get_next_day(response.content)
         if next_day not in processed_list:
              process_list.add(next_day)
         for pager_url in scraper.get_pager(response.content):
             if pager_url not in processed_list:
                 process_list.add(pager_url)
         #a monologue can contain several messages
         monologues = scraper.extract_monologues(response.content)
         messages = scraper.extract_messages_from_monologues(monologues)
         ElasticManager.index_messages(messages)
    except Exception, e:
        logger.exception(e)