def start(): #Nhóm các biến toàn cục cung cấp thông số cho chương trình url_list = ['http:' 'vietnamnet.vn'] #Chứa các đường link sẽ được duyệt history = [] #Chứa các đường link đã duyệt max_page = 1000 #Quy định số lượng trang web được tải về count = 0 #Đếm số lượng trang web đã tải về data_folder = "C:\\Users\\DELL\\Downloads\\crawl\\" #Kịch bản tải các trang web while (count < max_page) and (len(url_list) > 0): url = url_list.pop(0) page = web_op.doc_noi_dung(url) links = web_op.lay_cac_duong_link(page) for item in links: #Duyệt từng đường link thu được để kiểm tra tính hợp lệ if web_op.kiem_tra_link( item ): #Nếu đường link là hợp lệ thì tiếp tục thực hiện đoạn lệnh dưới item = web_op.chinh_sua_link( item) #Chỉnh sửa phần http://....... if not ( (item in url_list) and (item in history) ): #Nếu đường link chưa hề được duyệt và chưa có trong hàng đợi url_list.append( item) #Thêm đường link mới vào danh sách chờ duyệt folder_op.luu_noi_dung_file(page, data_folder) history.append(url) count += 1
def start(): url_list = ['https:' 'vietnamnet.vn'] #Chứa các đường link sẽ được duyệt history = [] #Chứa các đường link đã duyệt max_page = 1000 #Quy định số lượng trang web được tải về data_folder = "C:\\Users\\DELL\\Downloads\\Crawl\\" #Kịch bản tải các trang web while (count < max_page) and (len(url_list) > 0): url = url_list.pop(0) page = web_op.doc_noi_dung(url) links = web_op.lay_cac_duong_link(page) for item in links: #Duyệt từng đường link thu được để kiểm tra tính hợp lệ if web_op.kiem_tra_link( item ): # Nếu đường link là hợp lệ thì tiếp tục thuwucj hiện đoạn lệnh bên dưới item = web_op.chinh_sua_link( item) # Chỉnh sửa nếu thiếu phần https://... if not ( (item in url_list) and (item in history) ): # Nếu đường link chưa hề được duyệt và chưa có trong hàng đợi url_list.append( item) # Thêm đường link mới vào danh sách chờ duyệt folder_op.luu_noi_dung_xuong_file(page, data_folder) history.append(url) count += 1 # Press the green button in the gutter to run the script. if __name__ == '__main__': start()
def start(): url_list = ["https://vietnamnet.vn/"] url_list_const = 10000 history = [] max_page = 100 count = 0 folder_op.kiem_tra("C:\\") thu_muc_luu_du_lieu = 'C:\\crawl' #kịch bản các đường dẫn while (count < max_page) and (len(url_list) > 0): url_new = [] url = url_list.pop(0) page = web_op.doc_noi_dung(url) links = web_op.lay_cac_duong_link(page) for item in links: if web_op.kiem_tra_link(item) == False: item = web_op.chinh_sua_link(url, item) if (item not in url_list) and (item not in history) and ( item not in url_new) and (item != url): url_new.append(item) if (len(url_list) + len(url_new) <= url_list_const): url_list = url_list + url_new else: check = int(url_list_const - len(url_list)) array = url_new[:check] url_list = url_list + array count += 1 history.append(url) ten_thu_muc = folder_op.tao_ten_thu_muc_tu_dong( thu_muc_luu_du_lieu, url) folder_op.luu_file(page, ten_thu_muc) folder_op.luu_lich_su_cac_url(url) print("Đã duyệt " + str(count) + " url")
def start(): url_list = ['https://vietnamnet.vn/'] history = [] # chứa các đường link đã được duyệt max_page = 100 # quy định số lượng trang web được tải về count = 0 # đếm số lượng trang web đã tải về data_folder = "crawl" folder_op.folder(data_folder) # kịch bản tải các trang web while (count < max_page) and (len(url_list) > 0): url = url_list.pop(0) page = web_op.doc_noi_dung(url) links = web_op.lay_duong_link((page)) for item in links: if not web_op.kiem_tra_link(item): item = web_op.chinh_sua_link("https://vietnamnet.vn/", item) if not ((item in url_list) and (item in history)): url_list.append(item) count += 1 folder_op.luu_noi_dung(count, page) print('Đang tải...') print(f'{count} : {url}') history.append(url)
def start(): url =str(input("Nhập url cần tải : ")) #Chứa các đường link chưa duyệt n = int(input("Nhập giới hạn trang cần tải về :")) url_list = [] #Danh sách các đường link hàng chờ history=[] #Chứa các đường link đã duyệt max_page= n #Quy định số lượng trang web được tải về folder_op.check_folder("C:\\") #Kiểm tra và tạo thư mục Web Crawler data_folder = 'C:\\Web Crawler' #Lưu dữ liệu vào bên trong thư mục Web Crawler count=0 #Đếm số lượng trang web đã tải url_list.append(str(url)) #Thêm đường dẫn vào danh sách hàng chờ #kịch bản các trang web while (count < max_page) and (len(url_list) > 0): url = str(url_list.pop(0)) page = web_op.doc_noi_dung(url) links = web_op.lay_cac_duong_link(page) url_new = [] #Danh sách chứa các đường link mới được tìm thấy url_new_max = 1000 #Số lượng tối đa mà danh sách mới tìm thấy có thể chứa for item in links: #Duyệt từng đường link thu được để kiểm tra tính hợp lệ if web_op.kiem_tra_link(item) == False: #Kiểm tra tính hợp lệ item = web_op.chinh_sua_link(url, item) url_new.append(item) else: if (item not in url_list) and (item in history) and (item not in url_new) and (item != url): if len(url_new)<=url_new_max: #Nếu danh sách đường link mới lớn hơn số lượng tối đa mà danh sách cho phép thì dừng lại continue else: url_new.append(item) #Thêm vào danh sách mới để chờ duyệt url_list = url_list + url_new count += 1 #Đếm số đường dẫn đã duyệt history.append(url) #Lưu lại đường dẫn vừa mới nhận được vào lịch sử data1 = [page, url, url_new, url_new_max] ten_folder = folder_op.tao_ten_file_tu_dong(data_folder,url) folder_op.luu_file(data1, ten_folder) folder_op.luu_lich_su_cac_url(url) print("Đã duyệt\t", url)
def start(): url_list = ['https://vietnamnet.vn/'] history = [] # chứa các đường link đã được duyệt max_page = 10 # quy định số lượng trang web được tải về count = 0 # đếm số lượng trang web đã tải về data_folder = "./crawl-" + str( datetime.datetime.now().strftime("%m%d%Y%H%M%S")) folder_op.create_directory(data_folder) # kịch bản tải các trang web while (count < max_page) and (len(url_list) > 0): url = url_list.pop(0) print("Processing", url) page = web_op.doc_noi_dung(url) links = web_op.lay_duong_link((page)) for item in links: if not web_op.kiem_tra_link(item): item = web_op.chinh_sua_link("https://vietnamnet.vn/", item) if not ((item in url_list) and (item in history)): url_list.append(item) folder_op.luu_noi_dung(page, data_folder, count) history.append(url) count += 1