Python PunktSentenceTokenizer.sentences_from_tokens Beispiele

Programmiersprache: Python

Namespace / Paketname: nltk.tokenize.punkt

Methode / Funktion: sentences_from_tokens

Beispiele auf hotexamples.com: 2

Python PunktSentenceTokenizer.sentences_from_tokens - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die nltk.tokenize.punkt.PunktSentenceTokenizer.sentences_from_tokens, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

PunktSentenceTokenizer(30)

tokenize(30)

span_tokenize(21)

sentences_from_text(16)

train(9)

sentences_from_tokens(2)

PUNCTUATION(1)

__init__(1)

debug_decisions(1)

lower(1)

strip(1)

tokenize_sents(1)

Beispiel #1

Datei anzeigen

Datei: processor_sentence_splitter.py Projekt: dvzubarev/isanlp

class ProcessorSentenceSplitter:
    """Performs sentence splitting using simple rules.
    
    Simple wrapper around NLTK component. Suitable for european languages.
    """
    def __init__(self, delay_init=False):
        self.sent_tokeniser_ = None
        if not delay_init:
            self.init()

    def init(self):
        if self.sent_tokeniser_ is None:
            punkt_param = PunktParameters()
            punkt_param.abbrev_types = self.compile_abbreviations()
            self.sent_tokeniser_ = PunktSentenceTokenizer(punkt_param)

    def __call__(self, tokens):
        assert self.sent_tokeniser_
        sents = self.sent_tokeniser_.sentences_from_tokens(
            (e.text for e in tokens))
        curr = 0
        res_sents = list()
        for sent in sents:
            res_sents.append(Sentence(curr, curr + len(sent)))
            curr += len(sent)

        return res_sents

    def compile_abbreviations(self):
        def get_dot_pairs(alphabet):
            return [
                '.'.join(abbrev) for abbrev in list(combinations(alphabet, 2))
            ]

        def clean_regexps(regexps):
            return [
                ''.join(abbrev.lower().split('.')[:-1]).replace(
                    '\\', '').replace(u'\xad',
                                      '').replace(' ',
                                                  '.').replace('?',
                                                               ' ').lower()
                for abbrev in regexps
            ]

        ru_abbrevs = get_dot_pairs('цукенгшзхфвапролджэячсмитбю')
        ru_abbrevs += clean_regexps(_ru_abbrevs)

        en_abbrevs = get_dot_pairs('qwertyuiopasdfghjklzxcvbnm')
        en_abbrevs += clean_regexps(_en_abbrevs)

        return list(set(ru_abbrevs + en_abbrevs))

Beispiel #2

Datei anzeigen

class SentenceSplitter(object):
    def __init__(self):
        super(SentenceSplitter, self).__init__()
        self.sent_tokeniser_ = PunktSentenceTokenizer()
    
    def process(self, text, tokens):
        token_strs = [text[e[0] : e[1]] for e in tokens]
        
        sents = self.sent_tokeniser_.sentences_from_tokens(token_strs)
        curr = 0
        res_sents = list()
        for sent in sents:
            res_sents.append([Span(begin = e[0], end = e[1]) 
                              for e in tokens[curr : curr + len(sent)]])
            curr += len(sent)
        
        return res_sents