Python Chinese.add_pipe 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: spacy.lang.zh

클래스/타입: Chinese

메소드/함수: add_pipe

hotexamples.com에서의 예제들: 2

Python Chinese.add_pipe - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 spacy.lang.zh.Chinese.add_pipe에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Chinese(15)

from_config(4)

pipe(3)

add_pipe(2)

create_pipe(1)

예제 #1

파일 보기

파일: convert2spacy_jsonl.py 프로젝트: spaCn/how-to-make-chinese-models-for-spacy

                    start_char, end_char = ent_arrays[0]
                    label_ent_array.append((start_char, end_char + 1, l))
                ents.append(label_ent_array[0])

            if True == diff_contain_overlapping(ents):
                i = i + 1

                doc = nlp(text)
                tags = biluo_tags_from_offsets(doc, ents)
                doc.ents = spans_from_biluo_tags(doc, tags)

                line = docs_to_json([doc])
                f.write(json_dumps(line) + "\n")

    msg.good(f"Finished {file_path} :: {i} rows")
    if print_label:
        msg.info(f"{labels}")


if __name__ == "__main__":
    # Chinese.Defaults.use_jieba = True
    nlp = Chinese()
    nlp.add_pipe(nlp.create_pipe('sentencizer'))

    dev_data = read_jsonl(Path("./cluener2020/dev.json"))
    train_data = read_jsonl(Path("./cluener2020/train.json"))

    format_data_to_jsonl(dev_data, Path("./clue_spacy_dev.jsonl"))
    format_data_to_jsonl(train_data,
                         Path("./clue_spacy_train.jsonl"),
                         print_label=True)

예제 #2

파일 보기

with open("exercises/zh/capitals.json", encoding="utf8") as f:
    CAPITALS = json.loads(f.read())

nlp = Chinese()
matcher = PhraseMatcher(nlp.vocab)
matcher.add("COUNTRY", None, *list(nlp.pipe(COUNTRIES)))


def countries_component(doc):
    # 对所有匹配结果创建一个标签为"GPE"的实体Span
    matches = matcher(doc)
    doc.ents = [
        Span(doc, start, end, label="GPE") for match_id, start, end in matches
    ]
    return doc


# 把这个组件加入到流程中
nlp.add_pipe(countries_component)
print(nlp.pipe_names)

# 取值器，在国家首都的字典中寻找span的文本
get_capital = lambda span: CAPITALS.get(span.text)

# 用这个取值器注册Span的扩展属性"capital"
Span.set_extension("capital", getter=get_capital, force=True)

# 处理文本，打印实体文本、标签和首都属性
doc = nlp("新加坡可能会和马来西亚一起建造高铁。")
print([(ent.text, ent.label_, ent._.capital) for ent in doc.ents])