Python Parse.parse_main_page_get_total_pagenum示例

编程语言: Python

命名空间/包名称: parse

类/类型: Parse

方法/功能: parse_main_page_get_total_pagenum

hotexamples.com的示例: 2

Python Parse.parse_main_page_get_total_pagenum - 已找到2个示例。这些是从开源项目中提取的最受好评的parse.Parse.parse_main_page_get_total_pagenum现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Parse(30)

fixed(23)

setEc(10)

evaluate(9)

parse(9)

printStaff(8)

addVariable(7)

parsePage(4)

json(4)

crime(3)

get_specific_crime(3)

dynamic(3)

array(3)

grep(3)

key_values(3)

location(3)

parse_main_page_get_total_pagenum(2)

getRiemannIntegrals(2)

getDifferenceQuotion(2)

model(2)

parseCorpus(2)

hasMoreCommands(2)

main(2)

progress(2)

advance(2)

cmdType(2)

addVarFromList(2)

arg2(2)

arg1(2)

set_timespan(1)

parseData(1)

next(1)

nl_command(1)

parseToJSON(1)

ner(1)

moves(1)

shutdown(1)

modifyNote(1)

start(1)

set_file_path(1)

parse_content(1)

parse_Img(1)

parse_school(1)

prepare(1)

parser(1)

parse_title(1)

regex(1)

regexes(1)

request(1)

parse_request(1)

示例#1

显示文件

    def download_list_page_html(self, url, logger):
        """
        下载列表页的html文件，主要在这个地方需要做一件事：完成存储在同一级目录下的文件之间可以完成首页、上页、下页、末页的切换的功能
        :param url: 列表页的url
        :return: None
        """
        html = requests.get(url, headers=self.headers)
        num_str = url.split("&")[-1].split("=")[-1]
        html_text = html.text
        par = Parse()
        total_page = str(
            par.parse_main_page_get_total_pagenum(html.text, configs["test"]))

        # 这个部分是首页、上页、下页、末页的切换
        pattern_fpage = "id=\"fpage\" href=\"(.+?)\""
        pattern_upage = "id=\"upage\" href=\"(.+?)\""
        pattern_npage = "id=\"npage\" href=\"(.+?)\""
        pattern_epage = "id=\"epage\" href=\"(.+?)\""

        fapge_str = re.search(pattern_fpage, html_text).group(1)
        upage_str = re.search(pattern_upage, html_text).group(1)
        npage_str = re.search(pattern_npage, html_text).group(1)
        epage_str = re.search(pattern_epage, html_text).group(1)
        if num_str == "1":
            html_text = html_text.replace(fapge_str, "#")
            html_text = html_text.replace(upage_str, "#")
            html_text = html_text.replace(
                npage_str, "./page" + str(int(num_str) + 1).zfill(4) + ".html")
            html_text = html_text.replace(
                epage_str, "./page" + total_page.zfill(4) + ".html")
        elif num_str == total_page:
            html_text = html_text.replace(fapge_str, "./page0001.html")
            html_text = html_text.replace(
                upage_str, "./page" + str(int(num_str) - 1).zfill(4) + ".html")
            html_text = html_text.replace(npage_str, "#")
            html_text = html_text.replace(epage_str, "#")
        else:
            html_text = html_text.replace(fapge_str, "./page0001.html")
            html_text = html_text.replace(
                upage_str, "./page" + str(int(num_str) - 1).zfill(4) + ".html")
            html_text = html_text.replace(
                npage_str, "./page" + str(int(num_str) + 1).zfill(4) + ".html")
            html_text = html_text.replace(
                epage_str, "./page" + total_page.zfill(4) + ".html")

        # 这个部分是品牌和code数据链接的切换
        html_text = self.replace_brand_and_code_url(html_text)

        file_name = "page" + num_str.zfill(4) + ".html"
        html_store_dir = make_store_html_dir()
        self.write_file(html_store_dir, file_name, html_text, logger)

示例#2

显示文件

        "--url",
        type=str,
        default=
        'https://www.qcsanbao.cn/webqcba/DVMProducerServlet?method=getWhereList&p=1',
        help="要爬取的网站")
    args = parser.parse_args()
    url = args.url
    base_url = configs["basic_url"]
    r = get_redis_connect()
    dl = Download()
    par = Parse()

    # 制作列表页的url_list
    make_url_list(
        base_url,
        par.parse_main_page_get_total_pagenum(
            dl.download_first_page(url, logger), configs["test"]))

    threading_list = []

    # 列表页的解析详情页的数据url,存放在redis中，并且下载列表页html
    threading_list.extend([
        Thread(target=download_and_parse_page,
               args=("url_list", r, par.parse_main_page_get_detail_page_url,
                     dl.download_first_page, dl.download_list_page_html, lock,
                     logger)) for _ in range(configs["thread_num"])
    ])

    # 解析详情页的code和name数据url,存放在redis中，并且下载详情页html
    threading_list.extend([
        Thread(target=download_and_parse_page,
               args=("detail_url_list", r, par.parse_detail_page_get_url,