Пример #1
0
def start():
    #Nhóm các biến toàn cục cung cấp thông số cho chương trình
    url_list = ['http:' 'vietnamnet.vn']  #Chứa các đường link sẽ được duyệt
    history = []  #Chứa các đường link đã duyệt
    max_page = 1000  #Quy định số lượng trang web được tải về
    count = 0  #Đếm số lượng trang web đã tải về
    data_folder = "C:\\Users\\DELL\\Downloads\\crawl\\"

    #Kịch bản tải các trang web
    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_cac_duong_link(page)
        for item in links:  #Duyệt từng đường link thu được để kiểm tra tính hợp lệ
            if web_op.kiem_tra_link(
                    item
            ):  #Nếu đường link là hợp lệ thì tiếp tục thực hiện đoạn lệnh dưới
                item = web_op.chinh_sua_link(
                    item)  #Chỉnh sửa phần http://.......
                if not (
                    (item in url_list) and (item in history)
                ):  #Nếu đường link chưa hề được duyệt và chưa có trong hàng đợi
                    url_list.append(
                        item)  #Thêm đường link mới vào danh sách chờ duyệt
        folder_op.luu_noi_dung_file(page, data_folder)
        history.append(url)
        count += 1
Пример #2
0
def start():
    url_list = ['https:' 'vietnamnet.vn']  #Chứa các đường link sẽ được duyệt
    history = []  #Chứa các đường link đã duyệt
    max_page = 1000  #Quy định số lượng trang web được tải về
    data_folder = "C:\\Users\\DELL\\Downloads\\Crawl\\"

    #Kịch bản tải các trang web
    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_cac_duong_link(page)
        for item in links:  #Duyệt từng đường link thu được để kiểm tra tính hợp lệ
            if web_op.kiem_tra_link(
                    item
            ):  # Nếu đường link là hợp lệ thì tiếp tục thuwucj hiện đoạn lệnh bên dưới
                item = web_op.chinh_sua_link(
                    item)  # Chỉnh sửa nếu thiếu phần https://...
                if not (
                    (item in url_list) and (item in history)
                ):  # Nếu đường link chưa hề được duyệt và chưa có trong hàng đợi
                    url_list.append(
                        item)  # Thêm đường link mới vào danh sách chờ duyệt
            folder_op.luu_noi_dung_xuong_file(page, data_folder)
            history.append(url)
            count += 1

        # Press the green button in the gutter to run the script.
        if __name__ == '__main__':
            start()
Пример #3
0
def start():
    url_list = ["https://vietnamnet.vn/"]
    url_list_const = 10000
    history = []
    max_page = 100
    count = 0
    folder_op.kiem_tra("C:\\")
    thu_muc_luu_du_lieu = 'C:\\crawl'

    #kịch bản các đường dẫn
    while (count < max_page) and (len(url_list) > 0):
        url_new = []
        url = url_list.pop(0)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_cac_duong_link(page)
        for item in links:
            if web_op.kiem_tra_link(item) == False:
                item = web_op.chinh_sua_link(url, item)
            if (item not in url_list) and (item not in history) and (
                    item not in url_new) and (item != url):
                url_new.append(item)
        if (len(url_list) + len(url_new) <= url_list_const):
            url_list = url_list + url_new
        else:
            check = int(url_list_const - len(url_list))
            array = url_new[:check]
            url_list = url_list + array
        count += 1
        history.append(url)
        ten_thu_muc = folder_op.tao_ten_thu_muc_tu_dong(
            thu_muc_luu_du_lieu, url)
        folder_op.luu_file(page, ten_thu_muc)
        folder_op.luu_lich_su_cac_url(url)
        print("Đã duyệt " + str(count) + " url")
Пример #4
0
def start():
    url_list = ['https://vietnamnet.vn/']
    history = []  # chứa các đường link đã được duyệt
    max_page = 100  # quy định số lượng trang web được tải về
    count = 0  # đếm số lượng trang web đã tải về
    data_folder = "crawl"

    folder_op.folder(data_folder)

    # kịch bản tải các trang web

    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_duong_link((page))
        for item in links:
            if not web_op.kiem_tra_link(item):
                item = web_op.chinh_sua_link("https://vietnamnet.vn/", item)
            if not ((item in url_list) and (item in history)):
                url_list.append(item)
        count += 1
        folder_op.luu_noi_dung(count, page)
        print('Đang tải...')
        print(f'{count} : {url}')
        history.append(url)
Пример #5
0
def start():
    url =str(input("Nhập url cần tải : ")) #Chứa các đường link chưa duyệt
    n = int(input("Nhập giới hạn trang cần tải về :"))
    url_list = [] #Danh sách các đường link hàng chờ
    history=[]  #Chứa các đường link đã duyệt
    max_page= n    #Quy định số lượng trang web được tải về
    folder_op.check_folder("C:\\") #Kiểm tra và tạo thư mục Web Crawler
    data_folder = 'C:\\Web Crawler' #Lưu dữ liệu vào bên trong thư mục Web Crawler
    count=0     #Đếm số lượng trang web đã tải
    url_list.append(str(url)) #Thêm đường dẫn vào danh sách hàng chờ




    #kịch bản các trang web
    while (count < max_page) and (len(url_list) > 0):
        url = str(url_list.pop(0))
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_cac_duong_link(page)
        url_new = [] #Danh sách chứa các đường link mới được tìm thấy
        url_new_max = 1000 #Số lượng tối đa mà danh sách mới tìm thấy có thể chứa
        for item in links:  #Duyệt từng đường link thu được để kiểm tra tính hợp lệ
            if web_op.kiem_tra_link(item) == False: #Kiểm tra tính hợp lệ
                item = web_op.chinh_sua_link(url, item)
                url_new.append(item)
            else:
                if (item not in url_list) and (item in history) and (item not in url_new) and (item != url):
                    if len(url_new)<=url_new_max: #Nếu danh sách đường link mới lớn hơn số lượng tối đa mà danh sách cho phép thì dừng lại
                        continue
                    else:
                        url_new.append(item)    #Thêm vào danh sách mới để chờ duyệt
        url_list = url_list + url_new
        count += 1 #Đếm số đường dẫn đã duyệt
        history.append(url) #Lưu lại đường dẫn vừa mới nhận được vào lịch sử
        data1 = [page, url, url_new, url_new_max]
        ten_folder = folder_op.tao_ten_file_tu_dong(data_folder,url)
        folder_op.luu_file(data1, ten_folder)
        folder_op.luu_lich_su_cac_url(url)

        print("Đã duyệt\t", url)
Пример #6
0
def start():
    url_list = ['https://vietnamnet.vn/']
    history = []  # chứa các đường link đã được duyệt
    max_page = 10  # quy định số lượng trang web được tải về
    count = 0  # đếm số lượng trang web đã tải về
    data_folder = "./crawl-" + str(
        datetime.datetime.now().strftime("%m%d%Y%H%M%S"))
    folder_op.create_directory(data_folder)
    # kịch bản tải các trang web

    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        print("Processing", url)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_duong_link((page))
        for item in links:
            if not web_op.kiem_tra_link(item):
                item = web_op.chinh_sua_link("https://vietnamnet.vn/", item)
            if not ((item in url_list) and (item in history)):
                url_list.append(item)
        folder_op.luu_noi_dung(page, data_folder, count)
        history.append(url)
        count += 1