Python get_page_extractor示例

编程语言: Python

命名空间/包名称: lib.parsing

方法/功能: get_page_extractor

hotexamples.com的示例: 3

Python get_page_extractor - 已找到3个示例。这些是从开源项目中提取的最受好评的lib.parsing.get_page_extractor现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： edx_crawler.py 项目： dfrEak/web-crawler

def extract_units(url, headers, file_formats):
	"""
	Parses a webpage and extracts its resources e.g. video_url, sub_url, etc.
	"""
	#logging.info("Processing '%s'", url)

	page = get_page_contents(url, headers)
	page_extractor = get_page_extractor(url)
	units = page_extractor.extract_units_from_html(page, BASE_URL, file_formats)
	return units

示例#2

显示文件

def get_available_sections(url, headers):
    """
	Extracts the sections and subsections from a given url
	"""
    logging.debug("Extracting sections for :" + url)

    page = get_page_contents(url, headers)
    page_extractor = get_page_extractor(url)
    sections = page_extractor.extract_sections_from_html(page, BASE_URL)

    logging.debug("Extracted sections: " + str(sections))
    return sections

示例#3

显示文件

def get_courses_info(url, headers):
    """
	Extracts the courses information from the dashboard.
	"""
    logging.info('Extracting course information from dashboard.')

    page = get_page_contents(url, headers)
    page_extractor = get_page_extractor(url)
    courses = page_extractor.extract_courses_from_html(page, BASE_URL)

    logging.debug('Data extracted: %s', courses)

    return courses