Python tokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: spacy

메소드/함수: tokenizer

hotexamples.com에서의 예제들: 6

Python tokenizer - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 spacy.tokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: nlu_tf_model.py 프로젝트: halloTheCoder/service-bot

def preprocess_text(text, remove_stopwords=True):
    global tokenizer
    text = text.lower().strip()
    tokens = tokenizer(text)
    text = [x.text for x in tokens]
    
    # Optionally, remove stop words
    if remove_stopwords:
#         stops = set(stopwords.words("english"))
        own_stopword = ['the','on','a','an','it','be','has','some','my','me', 'i']
        stops = own_stopword
        text = [w for w in text if not w in stops]
    
    text = " ".join(text)
    
    if text[-1] in ['.','?']:
        text = text[:-1] + ' ' + text[-1]
        
    # Clean the text
    text = re.sub(r"[^A-Za-z0-9^,:!.\/'+=@-]", " ", text)
    text = re.sub(r"what's", "what is ", text)
    text = re.sub(r"\'s", " ", text)
    text = re.sub(r" n ", " and ", text)
    text = re.sub(r"\'ve", " have ", text)
    text = re.sub(r"can't", "cannot ", text)
    text = re.sub(r"n't", " not ", text)
    text = re.sub(r"i'm", "i am ", text)
    text = re.sub(r"\'re", " are ", text)
    text = re.sub(r"\'d", " would ", text)
    text = re.sub(r"\'ll", " will ", text)
    text = re.sub(r",", " ", text)
    # text = re.sub(r"\.", " ", text)
    text = re.sub(r"!", " ", text)
    # text = re.sub(r"\/", " ", text)
    text = re.sub(r"\^", " ^ ", text)
    text = re.sub(r"\+", " + ", text)
    # text = re.sub(r"\-", " - ", text)
    text = re.sub(r"\=", " = ", text)
    text = re.sub(r"'", " ", text)
    text = re.sub(r"(\d+)(k)", r"\g<1>000", text)
    # text = re.sub(r":", " : ", text)
    text = re.sub(r" e g ", " eg ", text)
    text = re.sub(r" b g ", " bg ", text)
    text = re.sub(r" u s ", " american ", text)
    text = re.sub(r"\0s", "0", text)
    text = re.sub(r" 9 11 ", "911", text)
    text = re.sub(r"e - mail", "email", text)
    text = re.sub(r"j k", "jk", text)
    text = re.sub(r"\s{2,}", " ", text)

    text = re.sub(' +', ' ', text)
    
    return text

예제 #2

파일 보기

def _spacy_tokenize(x, spacy):
    return [tok.text for tok in spacy.tokenizer(x)]

예제 #3

파일 보기

 def tokenize_text(text):
     return [token.text for token in spacy.tokenizer(text)]

예제 #4

파일 보기

def spacy_tokenize(x):
    return [
        tok.text
        for tok in spacy.tokenizer(x)
        if not tok.is_punct | tok.is_space
    ]

예제 #5

파일 보기

파일: helper.py 프로젝트: haoshan98/enfr-neural-machine-translation

def spacyTokenize(spacy, lines):
    lines_new = []
    for sent in lines:
        sent_new = ' '.join([tok.text for tok in spacy.tokenizer(sent)])
        lines_new.append(sent_new)
    return lines_new

예제 #6

파일 보기

파일: utils.py 프로젝트: melissayu01/CS287r

def tokenize(text, spacy):
    return [tok.text for tok in spacy.tokenizer(text)]