Python Preprocessor.add_char_span 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: common.utils

클래스/타입: Preprocessor

메소드/함수: add_char_span

hotexamples.com에서의 예제들: 2

Python Preprocessor.add_char_span - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 common.utils.Preprocessor.add_char_span에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Preprocessor(4)

split_into_short_samples(4)

add_char_span(2)

add_tok_span(2)

clean_data_wo_span(1)

transform_data(1)

예제 #1

파일 보기

def handle_normal_dataset(dataset, ignore_subword_match=False):
    """
    if ignore_subword_match is true, find entities with whitespace around, e.g. "entity" -> " entity "
    """
    # 加载preprocessor
    if config["encoder"] == "BERT":
        tokenizer = BertTokenizerFast.from_pretrained(config["bert_path"],
                                                      add_special_tokens=False,
                                                      do_lower_case=False)
        tokenize = tokenizer.tokenize
        get_tok2char_span_map = lambda text: tokenizer.encode_plus(
            text, return_offsets_mapping=True, add_special_tokens=False)[
                "offset_mapping"]
    elif config["encoder"] == "BiLSTM":
        tokenize = lambda text: text.split(" ")

        def get_tok2char_span_map(text):
            tokens = tokenize(text)
            tok2char_span = []
            char_num = 0
            for tok in tokens:
                tok2char_span.append((char_num, char_num + len(tok)))
                char_num += len(tok) + 1  # +1: whitespace
            return tok2char_span

    preprocessor = Preprocessor(
        tokenize_func=tokenize,
        get_tok2char_span_map_func=get_tok2char_span_map)
    # add char span
    dataset, miss_sample_list = preprocessor.add_char_span(
        dataset, ignore_subword_match=False)

    if len(miss_sample_list) > 0:
        print("=========存在不匹配实体，请检查===========")
        print(miss_sample_list)
        print("========================================")

    # add token span
    dataset = preprocessor.add_tok_span(dataset)

    return dataset

예제 #2

파일 보기

파일: BuildData.py 프로젝트: Xuanfang1121/relation-extract-tplinker-ch

error_statistics = {}
for file_name, data in file_name2data.items():
    print("file name: ", file_name)
    assert len(data) > 0
    if "relation_list" in data[0]:  # train or valid data
        # rm redundant whitespaces
        # separate by whitespaces
        data = preprocessor.clean_data_wo_span(
            data, separate=config["separate_char_by_white"])
        error_statistics[file_name] = {}
        #         if file_name != "train_data":
        #             set_trace()
        # add char span
        if config["add_char_span"]:
            # 实体在语料中的首尾位置
            data, miss_sample_list, miss_sample = preprocessor.add_char_span(
                data, config["ignore_subword"])

            error_statistics[file_name]["miss_samples"] = len(miss_sample_list)
            data_path = os.path.join(data_out_dir,
                                     "{}_miss.json".format(file_name))
            json.dump(miss_sample,
                      open(data_path, "w", encoding="utf-8"),
                      ensure_ascii=False,
                      indent=2)

#         # clean
#         data, bad_samples_w_char_span_error = preprocessor.clean_data_w_span(data)
#         error_statistics[file_name]["char_span_error"] = len(bad_samples_w_char_span_error)

# collect relation types and entity types
        for sample in tqdm(