import sys import time from Tour import TourInfo from bs4 import BeautifulSoup as bs from DBMgr import DBHelper as Db reload(sys) sys.setdefaultencoding('utf-8') # 사전에 필요한 정보를 로드 -> 디비 혹은 쉘, 배치 파일에서 인자로 받아서 세팅 main_url = 'http://tour.interpark.com/' keyword = '로마' keywords= unicode(keyword) tour_list = [] db = Db() # 드라아버 로드 driver = wd.Chrome(executable_path='chromedriver.exe') # 차후 -> 옵션 부여하여 (프록시, 에이전트 조작, 이미지를 배제) # 크롤링을 오래돌리면 -> 임시파일들이 쌓인다!!-> 템포 파일 삭제 # 사이트 접속 (get) driver.get(main_url) # 검색창을 찾아서 검색어 입력 # id : SearchGNBText driver.find_element_by_id('SearchGNBText').send_keys(keywords) # 수정할 경우 -> 뒤에 내용이 붙어버림 => .clear() -> send_keys() # 검색 버튼 클릭 driver.find_element_by_css_selector('button.search-btn').click()
# pip install selenium # 세로 셋팅하는 모듈은 이렇게 표시해두는게 차후에 좋음 # pip install bs4 # pip install pymysql from selenium import webdriver as wd # pymysql 대신에 이젠 DBMgr 가져옴 from DBMgr import DBHelper as Db import time import sys from TableInfo import TableInfo # 사전에 필요한 정보를 로드 --> 디비혹은 쉘, 베치 파일에서 인자로 받아서 세팅 db = Db() main_url = [ 'https://news.joins.com/world/northame/list/', 'https://news.joins.com/world/china/list/', 'https://news.joins.com/world/japan/list/', 'https://news.joins.com/world/eu/list/' ] # 드라이버 로드 driver = wd.Chrome(executable_path='chromedriver.exe') # 차후 --> 옵션 부여하여 (프록시, 에이전트 조작, 이미지를 배제) # 크롤링을 오래돌리면 --> 임시파일들이 쌓인다!! --> 템프 파일 삭제 # 사이트 접속 (get) for url in main_url: driver.get(url) type_links = [] news_links = []
# 로그인시 pc 웹 사이트에서 처리가 어려율 경우 -> 모바일 로그인 진입 # 모듈 가져오기 from selenium import webdriver as wd from bs4 import BeautifulSoup as bs # for waiting from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time from DBMgr import DBHelper as DB from tour import TourInfo # 사전에 필요한 정보를 로드 -> 디비 혹은 쉘, 배피 파일에서 인자로 받아서 세팅 db = DB() main_url = 'https://tour.interpark.com/' keyword = '로마' # 상품 정도를 담는 리스트 (TourInfo class 리스트) tour_list = [] # 드라이버 로드 driver = wd.Chrome(executable_path='chromedriver.exe') # 차후 -> 옵션 부여하여 (프록시, 에이전트 조작, 이미지를 배제) # 클롤링을 오래 돌리면 -> 임시파일들이 쌓인다!! -> 템프 파일 삭제 # 사이트 접속( (Get) driver.get(main_url)