Python English.add_special_case 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: spacy.lang.en

클래스/타입: English

메소드/함수: add_special_case

hotexamples.com에서의 예제들: 3

Python English.add_special_case - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 spacy.lang.en.English.add_special_case에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

English(30)

add_pipe(30)

create_pipe(30)

add_special_case(3)

convert_tokens_to_ids(3)

disable_pipes(3)

default_error_handler(2)

begin_training(1)

close(1)

component(1)

dependency_parse(1)

disable_pipe(1)

encode_plus(1)

예제 #1

파일 보기

def init_tokenizer():
    # import spacy
    # import os
    from spacy.lang.en import English
    from spacy.attrs import ORTH
    # nlp = spacy.load(os.environ.get('SPACY_MODEL', 'en'), disable=['tagger', 'ner'])
    # TODO: this may have compatibility issue
    tokenizer = English().Defaults.create_tokenizer()
    #  add special segmenting case for spacy tokenizer
    tokenizer.add_special_case('I.', [{ORTH: "I"}, {ORTH: "."}])
    for token in RESERVED_TOKENS:
        tokenizer.add_special_case(token, [{ORTH: token}])
    return tokenizer

예제 #2

파일 보기

def test_tokenizer_special_cases_with_affixes_preserve_spacy():
    tokenizer = English().tokenizer
    # reset all special cases
    tokenizer.rules = {}

    # in-place modification (only merges)
    text = "''a'' "
    tokenizer.add_special_case("''", [{"ORTH": "''"}])
    assert tokenizer(text).text == text

    # not in-place (splits and merges)
    tokenizer.add_special_case("ab", [{"ORTH": "a"}, {"ORTH": "b"}])
    text = "ab ab ab ''ab ab'' ab'' ''ab"
    assert tokenizer(text).text == text

예제 #3

파일 보기

def test_issue1061():
    """Test special-case works after tokenizing. Was caching problem."""
    text = "I like _MATH_ even _MATH_ when _MATH_, except when _MATH_ is _MATH_! but not _MATH_."
    tokenizer = English().tokenizer
    doc = tokenizer(text)
    assert "MATH" in [w.text for w in doc]
    assert "_MATH_" not in [w.text for w in doc]

    tokenizer.add_special_case("_MATH_", [{ORTH: "_MATH_"}])
    doc = tokenizer(text)
    assert "_MATH_" in [w.text for w in doc]
    assert "MATH" not in [w.text for w in doc]

    # For sanity, check it works when pipeline is clean.
    tokenizer = English().tokenizer
    tokenizer.add_special_case("_MATH_", [{ORTH: "_MATH_"}])
    doc = tokenizer(text)
    assert "_MATH_" in [w.text for w in doc]
    assert "MATH" not in [w.text for w in doc]