Python XmlWordxExtractor 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: apps.task.utils.text_extraction.xml_wordx.xml_wordx_extractor

클래스/타입: XmlWordxExtractor

hotexamples.com에서의 예제들: 9

Python XmlWordxExtractor - 9개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 apps.task.utils.text_extraction.xml_wordx.xml_wordx_extractor.XmlWordxExtractor에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

XmlWordxExtractor(9)

parse_file(9)

can_process_file(2)

예제 #1

파일 보기

 def test_template_02(self):
     file_path = self.get_file_path('template_02.docx')
     xtractor = XmlWordxExtractor()
     text = xtractor.parse_file(file_path)
     self.assertGreater(len(text), 250)
     self.assertTrue('List your strengths relevant for the role ' +
                     'you’re applying for' in text)

예제 #2

파일 보기

 def test_hyperlink(self):
     file_path = self.get_file_path('hyperlink.docx')
     xtractor = XmlWordxExtractor()
     text = xtractor.parse_file(file_path)
     self.assertGreater(len(text), 50)
     self.assertTrue('https://epam-my.sharepoint.com/' in text)
     self.assertTrue('Soft Skill' in text)

예제 #3

파일 보기

 def test_template_01(self):
     file_path = self.get_file_path('template_01.docx')
     xtractor = XmlWordxExtractor()
     text = xtractor.parse_file(file_path)
     self.assertGreater(len(text), 250)
     self.assertTrue('Describe your responsibilities and ' +
                     'achievements in terms of impact and results.' in text)

예제 #4

파일 보기

    def try_parse_document(self,
                           ptrs: ParsingTaskParams) -> DocumentParsingResults:
        """
        :return: (text, 'msword', None)
        """
        try:
            log_func = lambda s: ptrs.logger.info(s) if ptrs.logger else None
            xtractor = XmlWordxExtractor(log_func=log_func)
            if not xtractor.can_process_file(ptrs.original_file_name):
                return DocumentParsingResults()

            if ptrs.logger:
                ptrs.logger.info('Trying MS Word extract for file: ' +
                                 ptrs.original_file_name)

            return DocumentParsingResults(
                MarkedUpText(xtractor.parse_file(ptrs.file_path)), 'msword',
                None, xtractor.tables)
        except Exception as ex:
            if ptrs.logger:
                ptrs.logger.info(
                    'Caught exception while trying to parse file '
                    f'with MS Word parser: {ptrs.original_file_name}'
                    f'\n{format_exc()}')
            if ptrs.propagate_exceptions:
                raise ex
            return DocumentParsingResults()

예제 #5

파일 보기

    def test_lists(self):
        file_path = self.get_file_path('lists.docx')
        xtractor = XmlWordxExtractor()
        text = xtractor.parse_file(file_path)
        self.assertGreater(len(text), 50)

        regexp = re.compile(r'1\)\s+Refrigerator')
        self.assertTrue(regexp.search(text))

예제 #6

파일 보기

 def test_table_with_columns(self):
     file_path = self.get_file_path('doc_table_01.docx')
     xtractor = XmlWordxExtractor()
     text = xtractor.parse_file(file_path)
     self.assertGreater(len(text), 250)
     self.assertEqual(1, len(xtractor.tables))
     table = xtractor.tables[0]
     self.assertEqual((4, 3), table.shape)

예제 #7

파일 보기

    def test_table_in_table(self):
        file_path = self.get_file_path('doc_table_02.docx')
        xtractor = XmlWordxExtractor()
        text = xtractor.parse_file(file_path)
        self.assertGreater(len(text), 250)
        self.assertEqual(2, len(xtractor.tables))

        table = xtractor.tables[0]
        self.assertEqual((2, 2), table.shape)

        table = xtractor.tables[1]
        self.assertEqual((4, 3), table.shape)

예제 #8

파일 보기

    def test_numbered_headings(self):
        file_path = self.get_file_path('numbered_headings.docx')
        xtractor = XmlWordxExtractor()
        text = xtractor.parse_file(file_path)
        self.assertGreater(len(text), 250)

        regexp = re.compile(r'1.\s+Heading One')
        self.assertTrue(regexp.search(text))
        regexp = re.compile(r'1.1\s+Heading One One')
        self.assertTrue(regexp.search(text))
        regexp = re.compile(r'1.2\s+Heading one two')
        self.assertTrue(regexp.search(text))
        regexp = re.compile(r'2.\s+Heading 2')
        self.assertTrue(regexp.search(text))

예제 #9

파일 보기

파일: test_wordx_parse_documents.py 프로젝트: francisjervis/lexpredict-contraxsuite

    def test_tables_plain(self):
        file_path = self.get_file_path('tables_only.docx')
        xtractor = XmlWordxExtractor()
        self.assertTrue(xtractor.can_process_file(file_path))
        text = xtractor.parse_file(file_path)
        self.assertGreater(len(text), 100)

        regexp = re.compile(r'Row 1, column 1\s+Row 1, column 2\s+Row 1, column 3')
        self.assertTrue(regexp.search(text))

        self.assertTrue('r1c1: Contrary to popular belief' in text)

        regexp = re.compile(r'\s+r2c3: The first line of Lorem Ipsum')
        self.assertTrue(regexp.search(text))