Python Tokenizer.add_special_case 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: spacy.tokenizer

클래스/타입: Tokenizer

메소드/함수: add_special_case

hotexamples.com에서의 예제들: 4

Python Tokenizer.add_special_case - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 spacy.tokenizer.Tokenizer.add_special_case에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(30)

pipe(15)

explain(4)

rules(3)

to_bytes(3)

add_special_case(3)

token_match(2)

from_dir(2)

from_disk(2)

suffix_search(2)

to_disk(1)

load(1)

prefix_search(1)

infix_finditer(1)

from_bytes(1)

encode(1)

batch_encode_plus(1)

tokens_from_list(1)

예제 #1

파일 보기

def test_tokenizer_add_special_case_tag(text, tokens):
    vocab = Vocab()
    tokenizer = Tokenizer(vocab, {}, None, None, None)
    tokenizer.add_special_case(text, tokens)
    doc = tokenizer(text)
    assert doc[0].text == tokens[0]["orth"]
    assert doc[0].norm_ == tokens[0]["norm"]
    assert doc[1].text == tokens[1]["orth"]

예제 #2

파일 보기

파일: test_tokenizer.py 프로젝트: spacy-io/spaCy

def test_tokenizer_add_special_case_tag(text, tokens):
    vocab = Vocab(tag_map={"NN": {"pos": "NOUN"}})
    tokenizer = Tokenizer(vocab, {}, None, None, None)
    tokenizer.add_special_case(text, tokens)
    doc = tokenizer(text)
    assert doc[0].text == tokens[0]["orth"]
    assert doc[0].tag_ == tokens[0]["tag"]
    assert doc[0].pos_ == "NOUN"
    assert doc[1].text == tokens[1]["orth"]

예제 #3

파일 보기

def test_tokenizer_add_special_case_tag(text, tokens):
    vocab = Vocab(tag_map={"NN": {"pos": "NOUN"}})
    tokenizer = Tokenizer(vocab, {}, None, None, None)
    tokenizer.add_special_case(text, tokens)
    doc = tokenizer(text)
    assert doc[0].text == tokens[0]["orth"]
    assert doc[0].tag_ == tokens[0]["tag"]
    assert doc[0].pos_ == "NOUN"
    assert doc[1].text == tokens[1]["orth"]

예제 #4

파일 보기

"""

References:
1. https://spacy.io/api/tokenizer
1. https://github.com/explosion/spaCy/issues/396
"""
import spacy
nlp = spacy.load('en_core_web_lg')
from spacy.attrs import ORTH, LEMMA
from spacy.tokenizer import Tokenizer
exceptions = [{"us": [{ORTH: "us"}, {ORTH: "-east", LEMMA: "east"}]}]
tokenizer = Tokenizer(nlp.vocab)
tokenizer.add_special_case("""us-east-1""", exceptions)