Exemple #1
0
import  sys
import time
from Tour import TourInfo
from bs4 import BeautifulSoup as bs
from DBMgr import  DBHelper as Db


reload(sys)
sys.setdefaultencoding('utf-8')

# 사전에 필요한 정보를 로드 -> 디비 혹은 쉘, 배치 파일에서 인자로 받아서 세팅
main_url = 'http://tour.interpark.com/'
keyword = '로마'
keywords= unicode(keyword)
tour_list = []
db = Db()

# 드라아버 로드
driver = wd.Chrome(executable_path='chromedriver.exe')
# 차후 -> 옵션 부여하여 (프록시, 에이전트 조작, 이미지를 배제)
# 크롤링을 오래돌리면 -> 임시파일들이 쌓인다!!-> 템포 파일 삭제

# 사이트 접속 (get)
driver.get(main_url)
# 검색창을 찾아서 검색어 입력
# id : SearchGNBText
driver.find_element_by_id('SearchGNBText').send_keys(keywords)
# 수정할 경우 -> 뒤에 내용이 붙어버림 => .clear() -> send_keys()
# 검색 버튼 클릭
driver.find_element_by_css_selector('button.search-btn').click()
# pip install selenium   # 세로 셋팅하는 모듈은 이렇게 표시해두는게 차후에 좋음
# pip install bs4
# pip install pymysql

from selenium import webdriver as wd

# pymysql 대신에 이젠 DBMgr 가져옴
from DBMgr import DBHelper as Db
import time
import sys
from TableInfo import TableInfo

# 사전에 필요한 정보를 로드 --> 디비혹은 쉘, 베치 파일에서 인자로 받아서 세팅
db       = Db()
main_url = [
    'https://news.joins.com/world/northame/list/', 'https://news.joins.com/world/china/list/',
    'https://news.joins.com/world/japan/list/', 'https://news.joins.com/world/eu/list/'
]

# 드라이버 로드
driver = wd.Chrome(executable_path='chromedriver.exe')
# 차후 --> 옵션 부여하여 (프록시, 에이전트 조작, 이미지를 배제)
# 크롤링을 오래돌리면 --> 임시파일들이 쌓인다!! --> 템프 파일 삭제

# 사이트 접속 (get)
for url in main_url:
    driver.get(url)

    type_links = []
    news_links = []
Exemple #3
0
# 로그인시 pc 웹 사이트에서 처리가 어려율 경우 -> 모바일 로그인 진입
# 모듈 가져오기
from selenium import webdriver as wd
from bs4 import BeautifulSoup as bs
# for waiting
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import time

from DBMgr import DBHelper as DB
from tour import TourInfo

# 사전에 필요한 정보를 로드 -> 디비 혹은 쉘, 배피 파일에서 인자로 받아서 세팅
db = DB()
main_url = 'https://tour.interpark.com/'
keyword = '로마'

# 상품 정도를 담는 리스트 (TourInfo class 리스트)
tour_list = []

# 드라이버 로드
driver = wd.Chrome(executable_path='chromedriver.exe')

# 차후 -> 옵션 부여하여 (프록시, 에이전트 조작, 이미지를 배제)
# 클롤링을 오래 돌리면 -> 임시파일들이 쌓인다!! -> 템프 파일 삭제

# 사이트 접속( (Get)
driver.get(main_url)