Python TreebankWordTokenizer.PUNCTUATION 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.tokenize

메소드/함수: PUNCTUATION

hotexamples.com에서의 예제들: 2

Python TreebankWordTokenizer.PUNCTUATION - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.tokenize.TreebankWordTokenizer.PUNCTUATION에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

tokenize(30)

TreebankWordTokenizer(30)

span_tokenize(9)

PUNCTUATION(2)

remove(2)

append(1)

index(1)

tokenize_sents(1)

예제 #1

파일 보기

def _tokenize(text):
    """ Tokenizes string, does not consider $ when tokenizing"""
    tokenizer = TreebankWordTokenizer()
    tokenizer.PUNCTUATION = [
        (re.compile(r'([:,])([^\d])'), r' \1 \2'),
        (re.compile(r'([:,])$'), r' \1 '),
        (re.compile(r'\.\.\.'), r' ... '),
        (re.compile(r'[;@#%&]'), r' \g<0> '),
        (
            re.compile(r'([^\.])(\.)([\]\)}>"\']*)\s*$'),
            r'\1 \2\3 ',
        ),
        (re.compile(r'[?!]'), r' \g<0> '),
        (re.compile(r"([^'])' "), r"\1 ' "),
    ]
    return tokenizer.tokenize(text)

예제 #2

파일 보기

파일: utils.py 프로젝트: mlazarodominguez/syn

from nltk.tokenize import TreebankWordTokenizer
import re

t = TreebankWordTokenizer()

t.PUNCTUATION = [
    (re.compile(r'([:,])([^\d])'), r' \1 \2'),
    (re.compile(r'([\\/:,])$'), r' \1 '),
    (re.compile(r'\.\.\.'), r' ... '),
    (re.compile(r'[;@#$%&]'), r' \g<0> '),
    (re.compile(r'([^\.])(\.)([\]\)}>"\']*)\s*$'), r'\1 \2\3 '),
    (re.compile(r'[?!]'), r' \g<0> '),
    (re.compile(r"([^'])' "), r"\1 ' "),
]

# token replacements, to attempt some kind of normalisation
replacements = {
    "-lrb-": "(",
    "-rrb-": ")",
    "-lsb-": "[",
    "-rsb-": "]",
    "-lcb-": "{",
    "-rcb-": "}",
    "``": "\"",
    "“": "\"",
    "''": "\"",
    "”": "\"",
    "`": "'",
    "‘": "'",
    "’": "'",
    "---": "--",