Python PunktSentenceTokenizer.span_tokenize_sents примеры использования

Язык программирования: Python

Пространство имен/Пакет: nltk.tokenize

Метод/Функция: span_tokenize_sents

Примеров на hotexamples.com: 1

Python PunktSentenceTokenizer.span_tokenize_sents - 1 пример найден. Это лучшие примеры Python кода для nltk.tokenize.PunktSentenceTokenizer.span_tokenize_sents, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

PunktSentenceTokenizer(30)

tokenize(30)

span_tokenize(9)

sentences_from_text(7)

train(2)

difference(1)

intersection(1)

sentences_from_tokens(1)

span_tokenize_sents(1)

tokenizer(1)

union(1)

Пример #1

Показать файл

Файл: tokenization.py Проект: slonoten/slonlp

def tokenize_text(sent_tokenizer: PunktSentenceTokenizer,
                  word_tokenizer: TokenizerI,
                  text: str) -> Iterable[List[Tuple[int, int]]]:
    """Splits text to sentences and sentences to tokens
    
    :param sent_tokenizer: sentence detector
    :type sent_tokenizer: PunktSentenceTokenizer
    :param word_tokenizer: word tokenizer
    :type word_tokenizer: RegexpTokenizer
    :param text: text to split
    :type text: str
    :yield: list of sentence tokens start and end positions
    :rtype: Iterable[List[Tuple[int, int]]]
    """
    paragraphs = text.split('\n')
    para_sents = list(sent_tokenizer.span_tokenize_sents(paragraphs))
    parargraph_start = 0
    for para_sents, para_text in zip(para_sents, paragraphs):
        for sent_start, sent_end in para_sents:
            sentence = []
            sent_text = text[parargraph_start + sent_start:parargraph_start +
                             sent_end]
            for token_start, token_end in word_tokenizer.span_tokenize(
                    sent_text):
                offset = parargraph_start + sent_start
                sentence.append((offset + token_start, offset + token_end))
            yield sentence
        parargraph_start += len(para_text) + 1