Python get_text_from_html示例

编程语言: Python

命名空间/包名称: website_content_extractor.utils

方法/功能: get_text_from_html

hotexamples.com的示例: 8

Python get_text_from_html - 已找到8个示例。这些是从开源项目中提取的最受好评的website_content_extractor.utils.get_text_from_html现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

0

显示文件

文件： tasks.py 项目： Albert-91/website_content_extractor

def save_website_content(tasks: List[QueueTask]):
    try:
        with transaction.atomic():
            for task in tasks:
                if task.get_image:
                    urls = get_url_images_from_html(task.url) or []
                    save_images(urls, task)
                    logger.info("Saved all images from task id: %s" % task.pk)
                if task.get_text:
                    texts = get_text_from_html(task.url) or []
                    WebsiteText.save_texts(texts, task)
                    logger.info("Saved all texts from task id: %s" % task.pk)
                task.set_success_state()
    except DatabaseError as e:
        logger.error("Database error: %s" % e)

示例#2

0

显示文件

文件： tests.py 项目： Albert-91/website_content_extractor

 def test__text_extractor__should__return__None_input_is_not_correct_url(
         self):
     self.assertEqual(get_text_from_html('http://www.onetwothreepl'), None)

示例#3

0

显示文件

文件： tests.py 项目： Albert-91/website_content_extractor

 def test__text_extractor__should__return__not_empty_list(self):
     len_of_list = len(get_text_from_html('http://www.google.pl'))
     self.assertGreater(len_of_list, 0)

示例#4

0

显示文件

文件： tests.py 项目： Albert-91/website_content_extractor

 def test__text_extractor__should__return__None_if_domain_does_not_exist(
         self):
     self.assertEqual(get_text_from_html('http://www.onetwothree.pl'), None)

示例#5

0

显示文件

文件： tests.py 项目： Albert-91/website_content_extractor

 def test__text_extractor__should__return__None__if_if_status_code_is_404(
         self):
     url = "https://github.com/Albert-91/semantive_scrapping_text_and_images_from_url"
     self.assertEqual(get_text_from_html(url), None)

示例#6

0

显示文件

文件： tests.py 项目： Albert-91/website_content_extractor

 def test__text_extractor__should__return__None_if_scheme_is_invalid(self):
     self.assertEqual(get_text_from_html('htts://www.google.pl'), None)

示例#7

0

显示文件

文件： tests.py 项目： Albert-91/website_content_extractor

 def test__text_extractor__should__return__None_if_url_has_no_scheme(self):
     self.assertEqual(get_text_from_html('www.google.pl'), None)

示例#8

0

显示文件

文件： tests.py 项目： Albert-91/website_content_extractor

 def test__text_extractor__should__return__None_if_url_is_not_string(self):
     self.assertEqual(get_text_from_html(2), None)