Python Seq2SeqDatasetReader示例

编程语言: Python

命名空间/包名称: allennlp_models.generation

hotexamples.com的示例: 7

Python Seq2SeqDatasetReader - 已找到7个示例。这些是从开源项目中提取的最受好评的allennlp_models.generation.Seq2SeqDatasetReader现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Seq2SeqDatasetReader(3)

示例#1

显示文件

文件： seq2seq_test.py 项目： wlhgtc/allennlp-models

 def test_invalid_line_format(self, line):
     with tempfile.NamedTemporaryFile("w") as fp_tmp:
         fp_tmp.write(line)
         fp_tmp.flush()
         reader = Seq2SeqDatasetReader()
         with pytest.raises(ConfigurationError):
             reader.read(fp_tmp.name)

示例#2

显示文件

    def test_default_format(self, lazy):
        reader = Seq2SeqDatasetReader(lazy=lazy)
        instances = reader.read(
            str(FIXTURES_ROOT / "generation" / "seq2seq_copy.tsv"))
        instances = ensure_list(instances)

        assert len(instances) == 3
        fields = instances[0].fields
        assert [t.text for t in fields["source_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "a",
            "sentence",
            "@end@",
        ]
        assert [t.text for t in fields["target_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "a",
            "sentence",
            "@end@",
        ]
        fields = instances[1].fields
        assert [t.text for t in fields["source_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "another",
            "@end@",
        ]
        assert [t.text for t in fields["target_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "another",
            "@end@",
        ]
        fields = instances[2].fields
        assert [t.text for t in fields["source_tokens"].tokens] == [
            "@start@",
            "all",
            "these",
            "sentences",
            "should",
            "get",
            "copied",
            "@end@",
        ]
        assert [t.text for t in fields["target_tokens"].tokens] == [
            "@start@",
            "all",
            "these",
            "sentences",
            "should",
            "get",
            "copied",
            "@end@",
        ]

示例#3

显示文件

    def test_delimiter_parameter(self):
        reader = Seq2SeqDatasetReader(delimiter=",")
        instances = reader.read(
            str(FIXTURES_ROOT / "generation" / "seq2seq_copy.csv"))
        instances = ensure_list(instances)

        assert len(instances) == 3
        fields = instances[0].fields
        assert [t.text for t in fields["source_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "a",
            "sentence",
            "@end@",
        ]
        assert [t.text for t in fields["target_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "a",
            "sentence",
            "@end@",
        ]
        fields = instances[2].fields
        assert [t.text for t in fields["source_tokens"].tokens] == [
            "@start@",
            "all",
            "these",
            "sentences",
            "should",
            "get",
            "copied",
            "@end@",
        ]
        assert [t.text for t in fields["target_tokens"].tokens] == [
            "@start@",
            "all",
            "these",
            "sentences",
            "should",
            "get",
            "copied",
            "@end@",
        ]

示例#4

显示文件

文件： seq2seq_test.py 项目： wlhgtc/allennlp-models

 def test_correct_quote_handling(self, line):
     with tempfile.NamedTemporaryFile("w") as fp_tmp:
         fp_tmp.write(line)
         fp_tmp.flush()
         reader = Seq2SeqDatasetReader()
         instances = reader.read(fp_tmp.name)
         instances = ensure_list(instances)
         assert len(instances) == 1
         fields = instances[0].fields
         assert [t.text for t in fields["source_tokens"].tokens] == [
             "@start@",
             "a",
             "b",
             "@end@",
         ]
         assert [t.text for t in fields["target_tokens"].tokens] == [
             "@start@",
             "c",
             "d",
             "@end@",
         ]

示例#5

显示文件

文件： seq2seq_test.py 项目： wlhgtc/allennlp-models

    def test_source_add_end_token(self):
        reader = Seq2SeqDatasetReader(source_add_end_token=False)
        instances = reader.read(str(FIXTURES_ROOT / "generation" / "seq2seq_copy.tsv"))
        instances = ensure_list(instances)

        assert len(instances) == 3
        fields = instances[0].fields
        assert [t.text for t in fields["source_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "a",
            "sentence",
        ]
        assert [t.text for t in fields["target_tokens"].tokens] == [
            "@start@",
            "this",
            "is",
            "a",
            "sentence",
            "@end@",
        ]

示例#6

显示文件

文件： seq2seq_test.py 项目： wlhgtc/allennlp-models

 def test_max_length_truncation(self):
     reader = Seq2SeqDatasetReader(source_max_tokens=3, target_max_tokens=5)
     instances = reader.read(str(FIXTURES_ROOT / "generation" / "seq2seq_copy.tsv"))
     instances = ensure_list(instances)
     assert reader._source_max_exceeded == 2
     assert reader._target_max_exceeded == 1
     assert len(instances) == 3
     fields = instances[0].fields
     assert [t.text for t in fields["source_tokens"].tokens] == [
         "@start@",
         "this",
         "is",
         "a",
         "@end@",
     ]
     assert [t.text for t in fields["target_tokens"].tokens] == [
         "@start@",
         "this",
         "is",
         "a",
         "sentence",
         "@end@",
     ]

示例#7

显示文件

文件： seq2seq_test.py 项目： wlhgtc/allennlp-models

 def test_bad_start_or_end_symbol(self):
     with pytest.raises(ValueError, match=r"Bad start or end symbol \('BAD SYMBOL"):
         Seq2SeqDatasetReader(start_symbol="BAD SYMBOL")