Python PunktSentenceTokenizer.sentences_from_tokens示例

编程语言: Python

命名空间/包名称: nltk.tokenize.punkt

方法/功能: sentences_from_tokens

hotexamples.com的示例: 2

Python PunktSentenceTokenizer.sentences_from_tokens - 已找到2个示例。这些是从开源项目中提取的最受好评的nltk.tokenize.punkt.PunktSentenceTokenizer.sentences_from_tokens现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

PunktSentenceTokenizer(30)

tokenize(30)

span_tokenize(21)

sentences_from_text(16)

train(9)

sentences_from_tokens(2)

PUNCTUATION(1)

__init__(1)

debug_decisions(1)

lower(1)

strip(1)

tokenize_sents(1)

示例#1

显示文件

文件： processor_sentence_splitter.py 项目： dvzubarev/isanlp

class ProcessorSentenceSplitter:
    """Performs sentence splitting using simple rules.
    
    Simple wrapper around NLTK component. Suitable for european languages.
    """
    def __init__(self, delay_init=False):
        self.sent_tokeniser_ = None
        if not delay_init:
            self.init()

    def init(self):
        if self.sent_tokeniser_ is None:
            punkt_param = PunktParameters()
            punkt_param.abbrev_types = self.compile_abbreviations()
            self.sent_tokeniser_ = PunktSentenceTokenizer(punkt_param)

    def __call__(self, tokens):
        assert self.sent_tokeniser_
        sents = self.sent_tokeniser_.sentences_from_tokens(
            (e.text for e in tokens))
        curr = 0
        res_sents = list()
        for sent in sents:
            res_sents.append(Sentence(curr, curr + len(sent)))
            curr += len(sent)

        return res_sents

    def compile_abbreviations(self):
        def get_dot_pairs(alphabet):
            return [
                '.'.join(abbrev) for abbrev in list(combinations(alphabet, 2))
            ]

        def clean_regexps(regexps):
            return [
                ''.join(abbrev.lower().split('.')[:-1]).replace(
                    '\\', '').replace(u'\xad',
                                      '').replace(' ',
                                                  '.').replace('?',
                                                               ' ').lower()
                for abbrev in regexps
            ]

        ru_abbrevs = get_dot_pairs('цукенгшзхфвапролджэячсмитбю')
        ru_abbrevs += clean_regexps(_ru_abbrevs)

        en_abbrevs = get_dot_pairs('qwertyuiopasdfghjklzxcvbnm')
        en_abbrevs += clean_regexps(_en_abbrevs)

        return list(set(ru_abbrevs + en_abbrevs))

示例#2

显示文件

class SentenceSplitter(object):
    def __init__(self):
        super(SentenceSplitter, self).__init__()
        self.sent_tokeniser_ = PunktSentenceTokenizer()
    
    def process(self, text, tokens):
        token_strs = [text[e[0] : e[1]] for e in tokens]
        
        sents = self.sent_tokeniser_.sentences_from_tokens(token_strs)
        curr = 0
        res_sents = list()
        for sent in sents:
            res_sents.append([Span(begin = e[0], end = e[1]) 
                              for e in tokens[curr : curr + len(sent)]])
            curr += len(sent)
        
        return res_sents