Python TextMap.tokens_by_range示例

编程语言: Python

命名空间/包名称: analyser.documents

类/类型: TextMap

方法/功能: tokens_by_range

hotexamples.com的示例: 2

Python TextMap.tokens_by_range - 已找到2个示例。这些是从开源项目中提取的最受好评的analyser.documents.TextMap.tokens_by_range现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

TextMap(28)

text_range(10)

slice(4)

token_index_by_char(4)

sentence_at_index(2)

split_spans(2)

tokens_by_range(2)

char_range(1)

finditer(1)

split(1)

token_indices_by_char_range(1)

示例#1

显示文件

文件： test_tokenization.py 项目： nemoware/analyser

  def test_map_tokens_in_range(self):
    text = '1.2. мама   ಶ್ರೀರಾಮ'
    tm = TextMap(text)

    tokens = tm.tokens_by_range([0, 2])
    self.assertEqual(len(tokens), 2)
    self.assertEqual(tokens[0], '1.2.')
    self.assertEqual(tokens[1], 'мама')

示例#2

显示文件

文件： headers_detector.py 项目： nemoware/analyser

def line_features(tokens_map: TextMap, line_span: (int, int), line_number: int,
                  prev_features):
    tokens: Tokens = tokens_map.tokens_by_range(line_span)
    # TODO: add previous and next lines features
    txt: str = tokens_map.text_range(line_span)

    numbers, span, k, s = get_tokenized_line_number(tokens, 0)
    if not numbers:
        numbers = []
        number_minor = -2
        number_major = -2
    else:
        number_minor = numbers[-1]
        number_major = numbers[0]

    header_id = ' '.join(tokens[span[1]:])
    header_id = header_id.lower()

    all_upper = header_id.upper() == header_id

    features = {
        'line_number': line_number,
        # 'popular': _onehot(header_id in popular_headers),
        # 'cr_count': txt.count('\r'),
        'has_contract': _onehot(txt.lower().find('договор')),
        'has_article': _onehot(txt.lower().find('статья')),
        'all_uppercase': _onehot(all_upper),
        'len_tokens': len(tokens),
        'len_chars': len(txt),
        'number_level': len(numbers),
        'number_minor': number_minor,
        'number_major': number_major,
        'number_roman': _onehot(s),
        'endswith_dot': _onehot(txt.rstrip().endswith('.')),
        'endswith_comma': _onehot(txt.rstrip().endswith(',')),
        'endswith_underscore': _onehot(txt.rstrip().endswith('_')),

        # counts
        'dots': header_id.count('.'),
        'tabs': txt.count('\t'),
        'spaces_inside': txt.strip().count(' '),
        'spaces_all': txt.count(' '),
        'commas': header_id.count(','),
        'brackets': _count_strange_symbols(txt, '(){}[]'),
        'dashes': header_id.count('-'),
        'colons': header_id.count(':'),
        'semicolons': header_id.count(';'),
        'strange_symbols': _count_strange_symbols(header_id, '[$@+]?^&'),
        'capitals': _count_capitals(txt),
        'digits': _count_digits(header_id),
        'quotes': _count_strange_symbols(txt, '«»"\'"'),
        'underscores': _count_strange_symbols(txt, '_')
    }

    # if prev_features is None:
    #   # features['prev-number_level'] = 0
    #   features['prev-len_chars']=-1
    # else:
    #   # features['prev-number_level'] = prev_features['number_level']
    #   features['prev-len_chars'] = prev_features['len_chars']

    return features