コード例 #1
0
def start():
    url_list = ['https:' 'vietnamnet.vn']  #Chứa các đường link sẽ được duyệt
    history = []  #Chứa các đường link đã duyệt
    max_page = 1000  #Quy định số lượng trang web được tải về
    data_folder = "C:\\Users\\DELL\\Downloads\\Crawl\\"

    #Kịch bản tải các trang web
    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_cac_duong_link(page)
        for item in links:  #Duyệt từng đường link thu được để kiểm tra tính hợp lệ
            if web_op.kiem_tra_link(
                    item
            ):  # Nếu đường link là hợp lệ thì tiếp tục thuwucj hiện đoạn lệnh bên dưới
                item = web_op.chinh_sua_link(
                    item)  # Chỉnh sửa nếu thiếu phần https://...
                if not (
                    (item in url_list) and (item in history)
                ):  # Nếu đường link chưa hề được duyệt và chưa có trong hàng đợi
                    url_list.append(
                        item)  # Thêm đường link mới vào danh sách chờ duyệt
            folder_op.luu_noi_dung_xuong_file(page, data_folder)
            history.append(url)
            count += 1

        # Press the green button in the gutter to run the script.
        if __name__ == '__main__':
            start()
コード例 #2
0
def start():
    #Nhóm các biến toàn cục cung cấp thông số cho chương trình
    url_list = ['https:' 'vietnamnet.vn']  #Chứa các đường link sẽ được duyệt
    history = []  #Chứa các đường link đã duyệt
    max_page = 1000  #Quy định số lượng trang web được tải về
    count = 0  #Đếm số lượng trang web đã tải về
    data_folder = "C:\\Users\\MyPC\\Downloads\\crawl\\"

    #Kịch bản tải các trang web
    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_cac_duong_link(page)
        for item in links:  #Duyệt từng đường link thu được để kiểm tra tính hợp lệ
            if web_op.kiem_tra_link(
                    item
            ):  #Nếu đường link là hợp lệ thì tiếp tục thuwucj hiện đoạn lệnh bên dưới
                item = web_op.chinh_sua_link(
                    item)  #Chỉnh sửa nếu thiếu phần https://...
                if not (
                    (item in url_list) and (item in history)
                ):  #Nếu đường link chưa hề được duyệt và chưa có trong hàng đợi
                    url_list.append(
                        item)  #Thêm đường link mới vào danh sách chờ duyệt
        folder_op.luu_noi_dung_xuong_file(page, data_folder)
        history.append(url)
        count += 1
コード例 #3
0
ファイル: main.py プロジェクト: tantai17132002/baitapweb
def start():
    url_list = ['http:' 'vietnamnet.vn']  #chứa các đường link sẽ được duyệt
    history = []  #chứa các đường link đã duyệt
    max_page = 1000  #quy định số lượng các trang web đã tải về
    count = 0  #đếm số lượng trang web đã tải về
    data_folder = "C:\\Users\MyPC\\Downloads\\crawl\\"

    #kịch bản tải các trang web
    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        page = web_op.doc_noi_dung(url)
        links = web_op.lay_cac_duong_link(page)
        for item in links:  #Duyệt từng đường link thu được để kiểm tra tích hợp
            if web_op.luu_noi_dung_xuong_file(
                    item):  #Nếu đường link là hợp lệ thì tiếp tục
                item = web_op.chinh_sua_link(
                    item)  #Chỉnh sủa nếu thiếu phần http://...
                if not (
                    (item in url_list) and (item in history)
                ):  #Nếu đường link chưa hề được duyệt và chưa có trong hàng đợi
                    url_list.append(
                        item)  #Thêm đường link mới vào danh sách chờ duyệt
        folder_op.luu_noi_dung_xuong_file(page, data_folder)
        history.append(url)
        count += 1
コード例 #4
0
def start():
    url_list = ['https:' 'vietnamnet.vn']  #chứa các đường link sẽ được duyệt
    history = []  #chứa các đường link đã được duyệt
    max_page = 1000  #quy định đố lượng trang wed được tải về
    count = 0  # số lượng trang wed được tải về
    data_folder = "O:\\wed_scraping"

    #kịch bản tải các trang wed
    while (count < max_page) and (len(url_list) > 0):
        url = url_list.pop(0)
        page = wed_op.doc_noi_dung(url)
        links = wed_op.lay_cac_duong_link(page)
        for item in links:  #duyệt đường link để kiểm tra tính hợp lệ
            if wed_op.kiem_tra_link(
                    item):  #nếu đường link là hợp lệ thì tiếp tục
                item = wed_op.chinh_sua_link(
                    item)  #chỉnh sửa nếu thấy thiếu phần https://.....
                if not ((item in url_list) and (item in history)
                        ):  # nếu đường link chưa hề được duyệt và chưa
                    url_list.append(
                        item)  #thêm đường link mới vào danh sách chờ duyệt

        folder_op.luu_noi_dung_xuong_file(page, data_folder)
        history.append(url)
        count += 1