Python InputSample.from_faker_spans_result示例

编程语言: Python

命名空间/包名称: presidio_evaluator

类/类型: InputSample

方法/功能: from_faker_spans_result

hotexamples.com的示例: 4

Python InputSample.from_faker_spans_result - 已找到4个示例。这些是从开源项目中提取的最受好评的presidio_evaluator.InputSample.from_faker_spans_result现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

InputSample(24)

read_dataset_json(11)

tokens(11)

tags(10)

create_spacy_dataset(5)

create_conll_dataset(4)

from_faker_spans_result(4)

translate_input_sample_tags(3)

from_spacy_doc(2)

create_spacy_json(1)

from_json(1)

from_spacy(1)

masked(1)

translate_tag(1)

示例#1

显示文件

文件： test_recognizers_template_csv.py 项目： microsoft/presidio-research

def test_credit_card_recognizer_with_template(pii_csv, utterances,
                                              num_of_examples,
                                              acceptance_threshold):
    """
    Test credit card recognizer with a dataset generated from
    template and a CSV values file
    :param pii_csv: input csv file location
    :param utterances: template file location
    :param num_of_examples: number of samples to be used from dataset
    to test
    :param acceptance_threshold: minimum precision/recall
     allowed for tests to pass
    """

    # read template and CSV files
    import os

    dir_path = os.path.dirname(os.path.realpath(__file__))

    # generate examples
    generator = PresidioDataGenerator()
    templates = utterances.format(dir_path)
    examples = generator.generate_fake_data(templates=templates,
                                            n_samples=num_of_examples)
    input_samples = [
        InputSample.from_faker_spans_result(example) for example in examples
    ]

    scores = score_presidio_recognizer(
        recognizer=CreditCardRecognizer(),
        entities_to_keep=["CREDIT_CARD"],
        input_samples=input_samples,
    )
    if not np.isnan(scores.pii_f):
        assert acceptance_threshold <= scores.pii_f

示例#2

显示文件

文件： test_data_objects.py 项目： microsoft/presidio-research

def test_faker_spans_result_to_input_sample(faker_span_result):

    input_sample = InputSample.from_faker_spans_result(
        faker_span_result, create_tags_from_span=False)

    assert input_sample.full_text == "Dan is my name."
    assert input_sample.masked == "{{name}} is my name."
    assert input_sample.spans[0] == Span("name", "Dan", 0, 3)
    assert input_sample.spans[0] == Span("name", "Dan", 0, 3)

示例#3

显示文件

文件： test_data_objects.py 项目： microsoft/presidio-research

def test_faker_spans_to_input_sample_with_tags(faker_span_result):
    input_sample = InputSample.from_faker_spans_result(
        faker_span_result, create_tags_from_span=True, scheme="BILUO")
    assert input_sample.tags
    assert input_sample.tokens
    assert any(["U-name" in tag for tag in input_sample.tags])

示例#4

显示文件

文件： test_recognizers_template_join_csv.py 项目： microsoft/presidio-research

def test_pattern_recognizer(
    pii_csv,
    ext_csv,
    utterances,
    entity_name,
    pattern,
    score,
    num_of_examples,
    acceptance_threshold,
    max_mistakes_number,
):
    """
    Test generic pattern recognizer with a dataset generated from template, a CSV values file with common entities
    and another CSV values file with a custom entity
    :param pii_csv: input csv file location with the common entities
    :param ext_csv: input csv file location with custom entities
    :param utterances: template file location
    :param entity_name: custom entity name
    :param pattern: recognizer pattern
    :param num_of_examples: number of samples to be used from dataset to test
    :param acceptance_threshold: minimum precision/recall
     allowed for tests to pass
    """

    import os

    dir_path = os.path.dirname(os.path.realpath(__file__))
    dfpii = pd.read_csv(pii_csv.format(dir_path), encoding="utf-8")
    dfext = pd.read_csv(ext_csv.format(dir_path), encoding="utf-8")
    ext_column_name = dfext.columns[0]

    def get_from_ext(i):
        index = i % dfext.shape[0]
        return dfext.iat[index, 0]

    # extend pii with ext data
    dfpii[ext_column_name] = [
        get_from_ext(i) for i in range(0, dfpii.shape[0])
    ]

    # generate examples
    generator = PresidioDataGenerator()
    templates = utterances.format(dir_path)
    examples = generator.generate_fake_data(templates=templates,
                                            n_samples=num_of_examples)
    input_samples = [
        InputSample.from_faker_spans_result(example) for example in examples
    ]

    pattern = Pattern("test pattern", pattern, score)
    pattern_recognizer = PatternRecognizer(entity_name,
                                           name="test recognizer",
                                           patterns=[pattern])

    scores = score_presidio_recognizer(
        recognizer=pattern_recognizer,
        entities_to_keep=[entity_name],
        input_samples=input_samples,
    )
    if not np.isnan(scores.pii_f):
        assert acceptance_threshold <= scores.pii_f
    assert max_mistakes_number >= len(scores.model_errors)