Python PunktSentenceTokenizer.tokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.tokenize

메소드/함수: tokenizer

hotexamples.com에서의 예제들: 1

Python PunktSentenceTokenizer.tokenizer - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.tokenize.PunktSentenceTokenizer.tokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PunktSentenceTokenizer(30)

tokenize(30)

span_tokenize(9)

sentences_from_text(7)

train(2)

difference(1)

intersection(1)

sentences_from_tokens(1)

span_tokenize_sents(1)

tokenizer(1)

union(1)

예제 #1

파일 보기

import nltk
from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer

train_text = state_union.raw("2005-GWBush.txt")
sample_text = state_union.raw("2006-GWBush.txt")

custom_sent_tokenizer = PunktSentenceTokenizer(train_text)

tokenized = custom_sent_tokenizer.tokenizer(sample_text)


def process_content():
    try:
        for i in tokenized[5:]:
            words = nltk.word_tokenize(i)
            tagged = nltk.pos_tag(words)
            namedEnt = nltk.ne_chunk(tagged, binary=True)
    except Exception as e:
        print(std(e))


process_content()