Python parse_html示例

编程语言: Python

命名空间/包名称: scraper

方法/功能: parse_html

hotexamples.com的示例: 6

Python parse_html - 已找到6个示例。这些是从开源项目中提取的最受好评的scraper.parse_html现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： test_scraper.py 项目： strnikki/wiki-jumping-bot

def test_can_return_link_to_new_article():

    response = '<div id="content"><a href="/wiki/Web_scraping"></a></div>'
    soup = scraper.parse_html(response)

    link = scraper.get_new_article(soup)
    assert link == "https://en.wikipedia.org/wiki/Web_scraping"

示例#2

显示文件

文件： script.py 项目： NikolaiB/web_scraping

def run_process(page_number, filename, browser):
    if connect_to_base(browser, page_number):
        sleep(2)
        html = browser.page_source
        output_list = parse_html(html)
        write_to_file(output_list, filename)
    else:
        print('Error connecting to hackernews')

示例#3

显示文件

文件： main.py 项目： wmunson/TF-transcripts

def main():
    # file = 'pdfs/01-kevin-rose.pdf'
    df = pd.read_csv('links5.csv', sep='|')
    episodes = list(df.loc[:, 'ep'])
    urls = list(df.loc[:, 'urls'])
    guests = list(df.loc[:, 'guests'])
    for i, url in enumerate(urls):
        print(episodes[i], guests[i].split(','))
        if url[-1] == 'f':
            data = pdf_parser(episodes[i], url, guests[i].split(','))
        elif url[-1] == '/':
            data = parse_html(episodes[i], url)
        else:
            print('ERROR ', episodes[i])
            data = {'file_type': 'audio'}

        with open(f'files/eps/{episodes[i]}.json', 'w') as fp:
            json.dump(data, fp, sort_keys=True)

示例#4

显示文件

文件： test_scraper.py 项目： strnikki/wiki-jumping-bot

def test_get_new_article_fails_when_no_link():
    response = '<div id="content"></div>'
    soup = scraper.parse_html(response)

    with pytest.raises(OutOfLinksException):
        assert scraper.get_new_article(soup)

示例#5

显示文件

文件： test_scraper.py 项目： strnikki/wiki-jumping-bot

def test_does_not_follow_hashtag_links():
    response = '<div id="content"><a href="/wiki/Web_scraping#Something"></a></div>'
    soup = scraper.parse_html(response)

    with pytest.raises(OutOfLinksException):
        assert scraper.get_new_article(soup)

示例#6

显示文件

文件： test_scraper.py 项目： strnikki/wiki-jumping-bot

def test_can_return_title():
    response = scraper.get_page_data(
        "https://en.wikipedia.org/wiki/Web_scraping")
    soup = scraper.parse_html(response.content)

    assert (scraper.get_title(soup) == "Web scraping")