# 데이터 수집(collection) for item in items: endTime = time.time() - startTime print('Running crawler : ' + str(endTime)) resultfile = collect.crawling(**item, fetch=False) item['resultfile'] = resultfile # 데이터 분석(analyze) --> konlpy(...jpype --> +java 64bit, python 64bit 비트 맞춰야함) for item in items: endTime = time.time() - startTime print('Running analyze : ' + str(endTime)) data = analyze.json_to_str(item.get('resultfile'), 'message') item['count_wordfreq'] = analyze.count_wordfreq(data) # 데이터 시각화(visualize) for item in items: endTime = time.time() - startTime print('Running visualize : ' + str(endTime)) # 분석된 단어들 중에 most 50개만.. count = item['count_wordfreq'] count_m50 = dict(count.most_common(50)) # wordclud, graph bar filename = "%s_%s_%s" % (item['pagename'], item['since'], item['until']) visualize.wordcloud(filename, count_m50) visualize.graph_bar( # 다른 바에도 적용하기위해 함수로 제작
items = [{ 'pagename': 'jtbcnews', 'since': '2018-01-01', 'until': '2018-12-31' }, { 'pagename': 'chosun', 'since': '2018-01-01', 'until': '2018-12-31' }] # # 데이터 수집(collection) for item in items: resultfile = collect.crawling(**item, fetch=False) item['resultfile'] = resultfile # 데이터 분석(analyze) for item in items: data = analyze.json_to_str(item['resultfile'], 'message') item['count_wordfreq'] = analyze.count_wordfreq( data) # 명사만 추출하여 items 사전에 추가 print(item['count_wordfreq']) # 빈도수 출력 # 데이터 시각화(visualize) for item in items: count = item['count_wordfreq'] # dict 형식으로 빈도수 출력 count_m50 = dict(count.most_common(50)) # 높은 빈도수 순서대로 지정값 갯수만큼 출력 filename = "%s_%s_%s" % (item['pagename'], item['since'], item['until']) visualize.wordcloud(filename, count_m50)