Python nltk_sent_tokenize 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.tokenize

메소드/함수: nltk_sent_tokenize

hotexamples.com에서의 예제들: 9

Python nltk_sent_tokenize - 9개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.tokenize.nltk_sent_tokenize에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def sent_tokenize(text):
    language = 'english'
    length_limit = 10
    sents = nltk_sent_tokenize(text, language)

    sents_filtered = []
    for s in sents:
        if s[-1] != ':' and len(s) > length_limit:
            sents_filtered.append(s)
    return sents_filtered

예제 #2

파일 보기

 def sent_tokenize(self, text):
     if self.preprocess_type == "nltk":
         sents = nltk_sent_tokenize(text, self.language)
     else:
         sents = gensim_sent_tokenize(text)
     sents_filtered = []
     for s in sents:
         if s[-1] != ":" and len(s) > self.length_limit:
             sents_filtered.append(s)
         # else:
         #   print("REMOVED!!!!" + s)
     return sents_filtered

예제 #3

파일 보기

    def __init__(self, lang):
        # This can be varied
        self.language = 'english'.lower() if lang == 2 else 'russian'.lower()
        self.removeStops = True  # `= set()` for not removing stopwords
        self.puncts = set('.,!?')
        self.default_encodings = ["utf-8", "cp1251"]

        # language dispatch
        self.sent_tokenize = lambda text: nltk_sent_tokenize(text, self.language)
        self.word_tokenize = lambda text: nltk_word_tokenize(text, self.language)
        self.stopwords = set(stopwords.words(self.language)) if self.removeStops else set()
        self.stemmer = RusStemmer() if lang == 1 else EngStemmer()

예제 #4

파일 보기

파일: base.py 프로젝트: JairParra/LDA_centroid_based_summarization

 def sent_tokenize(self, text):
     if self.preprocess_type == 'nltk':
         sents = nltk_sent_tokenize(text, self.language)
     else:
         sents = gensim_sent_tokenize(text)
     sents_filtered = []  # to store the sentences
     for s in sents:
         if s[-1] != ':' and len(
                 s
         ) > self.length_limit:  # append sentence if it has a minimum character length
             sents_filtered.append(s)
         # else:
         #   print("REMOVED!!!!" + s)
     return sents_filtered

예제 #5

파일 보기

파일: text_processing.py 프로젝트: dwright37/phylogenetic-autoencoder

def sent_tokenize(document, tokenizer='nltk'):
    """
    Tokenize the document into a list of sentences.

    Args:
        document (string):      The input string
        tokenizer (string):     The tokenizer to use. Default is nltk sentence tokenizer

    Returns:
        List[string]: The sentences from the input string
    """
    if tokenizer in "nltk":
        return nltk_sent_tokenize(document)
    else:
        return re.split(document, DOC_SPLIT_REGEX)

예제 #6

파일 보기

def sentence_tokenize(text):
    """Tokenize text into sentences."""
    return nltk_sent_tokenize(text)

예제 #7

파일 보기

def sent_tokenize(text, lang="en"):
    lang = langcodes.Language(lang).language_name().lower()
    try:
        return nltk_sent_tokenize(text, language=lang)
    except (LookupError, KeyError):
        return nltk_sent_tokenize(text)

예제 #8

파일 보기

파일: simpleAPI2.py 프로젝트: NikitaMishin/pldoctoolkit

from nltk.tokenize import sent_tokenize as nltk_sent_tokenize
from nltk.corpus import stopwords
from nltk import word_tokenize as nltk_word_tokenize
from nltk.util import trigrams  # skipgrams(_, n, k); n - deg, k - skip dist

import re

# This can be varied
language = 'english'.lower()
#language = 'russian'.lower()
removeStops = True  # `= set()` for not removing stopwords
puncts = set('.,!?')
default_encodings = ["utf-8", "cp1251"]

# language dispatch
sent_tokenize = lambda text: nltk_sent_tokenize(text, language)
word_tokenize = lambda text: nltk_word_tokenize(text, language)
stopwords = set(stopwords.words(language)) if removeStops else set()
if language == 'russian':
    from nltk.stem.snowball import RussianStemmer as Stemmer
else:
    from nltk.stem.snowball import EnglishStemmer as Stemmer


# Remove unnecessary tokens
def remove_sth(seq: Iterator[str], sth: Set[str]) -> Iterator[str]:
    """ Generic function for removal """
    return filter(lambda x: x not in sth, seq)


def remove_puncts(seq: Iterator[str]) -> Iterator[str]:

예제 #9

파일 보기

파일: training_mldoc.py 프로젝트: aaronmueller/contextualized-topic-models

def sent_tokenize(text, lang='en'):
    lang = langcodes.Language(lang).language_name().lower()
    try:
        return nltk_sent_tokenize(text, language=lang)
    except:
        return nltk_sent_tokenize(text)