Python Crawler.get_elements示例

编程语言: Python

命名空间/包名称: utils

类/类型: Crawler

方法/功能: get_elements

hotexamples.com的示例: 1

Python Crawler.get_elements - 已找到1个示例。这些是从开源项目中提取的最受好评的utils.Crawler.get_elements现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Crawler(4)

get(3)

get_html_content(2)

close(1)

download(1)

get_attr(1)

get_elements(1)

get_icd_category_urls(1)

get_sub_category_urls(1)

示例#1

显示文件

    downloads_path = config.get('general',
                                'downloads_path',
                                fallback='/tmp/downloads/')
    if not os.path.exists(downloads_path):
        os.makedirs(downloads_path)
    elif not os.path.isdir(downloads_path):
        print('ERROR: downloads_path parameter points to file!')
        sys.exit(1)

    crawler = Crawler(config, 'captions')
    crawler.get(config.get('captions', 'url'))

    captions_list = []

    for row in crawler.get_elements('tbody tr'):
        items = crawler.get_elements('td', root=row)
        filename = items[0].text
        print("Current Filename is {}".format(filename))
        url = crawler.get_attr('a', 'href', root=items[0])
        crawler.download(url, filename)

        convert_filename = filename.replace('.pdf', '.txt')
        os.system("pdftotext '%s' '%s'" %
                  (downloads_path + 'Captions/' + filename,
                   downloads_path + 'Captions/' + convert_filename))
        file_handle = open(downloads_path + 'Captions/' + convert_filename,
                           encoding="utf-8")
        content = file_handle.readlines()
        content = list(filter(None, [x.strip() for x in content]))