Python split_with_overlap示例

编程语言: Python

命名空间/包名称: text_encoders.text_encoders_utils

方法/功能: split_with_overlap

hotexamples.com的示例: 5

Python split_with_overlap - 已找到5个示例。这些是从开源项目中提取的最受好评的text_encoders.text_encoders_utils.split_with_overlap现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

    def encode_long_text(self, long_text, batch=32):
        assert isinstance(long_text, str)

        split_text = split_with_overlap(
            long_text,
            max_length=self.albert_config['max_length'],
            overlap_window_length=self.albert_config['overlap_window'],
            tokenize_func=self.tokenizer.tokenize
        )  # NOTE: This is not fully correct. Has issues with sub-words (results do not differ much, however).

        encoded_splits = None
        _from = 0
        to = _from + batch
        while _from < len(split_text):
            encoded = self(split_text[_from:to]).numpy()
            if encoded_splits is None:
                encoded_splits = encoded
            else:
                encoded_splits = np.concatenate([encoded_splits, encoded],
                                                axis=0)
            _from = to
            to = _from + batch

        #encoded_splits = self(split_text).numpy()
        return self.aggregate_split_text(encoded_splits)

示例#2

显示文件

 def test_split_2(self):
     expected = [
         'One two three four five.', 'four five. Six seven eight',
         'seven eight nine. Ten.'
     ]
     output = split_with_overlap(self.text,
                                 max_length=5,
                                 overlap_window_length=2)
     self.assertEqual(output, expected)

示例#3

显示文件

    def test_max_length(self):
        max_length = 2
        output = split_with_overlap(self.text,
                                    max_length=max_length,
                                    overlap_window_length=1)

        for x in output:
            actual = len(x.split())
            self.assertLessEqual(actual, max_length)

示例#4

显示文件

 def test_output_type(self):
     output = split_with_overlap(self.text, 2, 1)
     self.assertEqual(type(output), list)

示例#5

显示文件

 def test_short(self):
     output = split_with_overlap(self.text, 100, 1)
     self.assertEqual(output, [self.text])