Python TextMap.split_spans示例

编程语言: Python

命名空间/包名称: analyser.documents

类/类型: TextMap

方法/功能: split_spans

hotexamples.com的示例: 2

Python TextMap.split_spans - 已找到2个示例。这些是从开源项目中提取的最受好评的analyser.documents.TextMap.split_spans现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

TextMap(28)

text_range(10)

slice(4)

token_index_by_char(4)

sentence_at_index(2)

split_spans(2)

tokens_by_range(2)

char_range(1)

finditer(1)

split(1)

token_indices_by_char_range(1)

示例#1

显示文件

文件： test_tokenization.py 项目： nemoware/analyser

  def test_split_span_add_delimiters(self):
    text = '1 2 3\nмама\nಶ್ರೀರಾಮ'
    tm = TextMap(text)

    spans = [s for s in tm.split_spans('\n', add_delimiter=True)]
    for k in spans:
      print(tm.text_range(k))

    self.assertEqual('1 2 3\n', tm.text_range(spans[0]))

示例#2

显示文件

文件： headers_detector.py 项目： nemoware/analyser

def doc_features(tokens_map: TextMap):
    body_lines_ranges = tokens_map.split_spans(PARAGRAPH_DELIMITER,
                                               add_delimiter=True)

    _doc_features = []
    _line_spans = []
    ln = 0
    _prev_features = None
    for line_span in body_lines_ranges:
        _line_spans.append(line_span)

        _features = line_features(tokens_map, line_span, ln, _prev_features)
        _doc_features.append(_features)
        _prev_features = _features
        ln += 1
    doc_featuresX_data = pd.DataFrame.from_records(_doc_features)
    doc_features_data = np.array(doc_featuresX_data)

    return doc_features_data, _line_spans