def parse(): scraping = sc.Scraping() data = request.get_json() tags = data['post_tags'] url = scraping.scraping(tags) response = {'article': url} return make_response(jsonify(response))
def main(): #入力ウインドウを生成する input_gui = gui.Scraping_GUI() input_gui.generate_window() keyword, areaword = input_gui.event_loop() #入力結果をもとにpandas dataframeを生成する scr = scraping.Scraping(keyword, areaword) scr.open_browser() scr.show_more_btn_click() store_is_none = scr.get_store_list() if store_is_none == -1: scr.close() input_gui.store_is_none() return -1 #file_name =scr.output_CSV() df = scr.output_dataframe() scr.close() #出力ウインドウを生成する output_gui = gui.Output_GUI(df) output_gui.output()
def index(): #スクレイピングサンプル s = scrap.Scraping() data = s.collectData() #cronサンプル c = cron.cron() text = c.limp() html = render_template('index.html', a=data, b=text) return html
import scraping import write_csv # 検索ワード取得 print('-- 検索キーワードを入力してください --') search_word = input() # 取得作業 scr = scraping.Scraping(search_word) obtained_info = scr.getShopInfo() # SCVに吐き出す # "{検索ワード}.csv" として出力 write_csv.WriteCsv(search_word, obtained_info)
def __init__(self, now, url='https://www.pref.hiroshima.lg.jp/site/hcdc/covid19-kanjya.html'): #2020.5.12修正 URLが変わったため 修正前は、https://www.pref.hiroshima.lg.jp/soshiki/57/bukan-coronavirus.html' self.data = scraping.Scraping(url, 0) self.date = now
def __init__(self, now, url='https://www.pref.hiroshima.lg.jp/soshiki/50/korona-kensazisseki.html'): self.data = scraping.Scraping(url, 0) self.date = now
def Initialize(args): global g_cls_sc #グローバル化 g_cls_sc = SC.Scraping(args[1], args[2], args[3], args[4]) #インスタンス生成
def scraping(article): scraping = sc.Scraping() data = scraping.getComment(article['link']) return data
def __init__(self, now, url='https://www.pref.hiroshima.lg.jp/soshiki/50/korona-soudan-kennsai.html'): self.data = scraping.Scraping(url, 1) #2020.5.4修正 新しいテーブルができてたため (修正前はself.data = scraping.Scraping(url, 0) self.date = now
import os import sys import re import datetime from bs4 import BeautifulSoup sys.path.append('../') import settings import scraping import linebot # 対象ページを取得 scraping = scraping.Scraping() listUrl = [] newUrlList = [] page = scraping.getPage(settings.SCRAPING_PAGE_URL) aElems = scraping.getElement(page, 'a') for a in aElems: try: aClass = a.get('class').pop(0) if aClass in 'js-cassette_link_href': listUrl.append(a.get('href')) print(listUrl) except: pass # 更新日時をチェック、当日の場合は配列に格納 for url in listUrl: