Python BPEDecoder示例

编程语言: Python

命名空间/包名称: tokenizers.decoders

类/类型: BPEDecoder

hotexamples.com的示例: 5

Python BPEDecoder - 已找到5个示例。这些是从开源项目中提取的最受好评的tokenizers.decoders.BPEDecoder现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

BPEDecoder(5)

decode(1)

suffix(1)

示例#1

显示文件

文件： test_decoders.py 项目： zeta1999/tokenizers

    def test_can_modify(self):
        decoder = BPEDecoder(suffix="123")

        assert decoder.suffix == "123"

        # Modify these
        decoder.suffix = "</w>"
        assert decoder.suffix == "</w>"

示例#2

显示文件

文件： test_decoders.py 项目： zhezhe123/tokenizers

 def test_decoding(self):
     decoder = BPEDecoder()
     assert (decoder.decode(
         ["My</w>", "na", "me</w>", "is</w>", "Jo",
          "hn</w>"]) == "My name is John")
     decoder = BPEDecoder(suffix="_")
     assert decoder.decode(["My_", "na", "me_", "is_", "Jo",
                            "hn_"]) == "My name is John"

示例#3

显示文件

文件： tokenization_openai.py 项目： Andrew05200/CCKS2020-1

    def __init__(
        self,
        vocab_file: Optional[str] = None,
        merges_file: Optional[str] = None,
        unk_token: Optional[str] = "<unk>",
        suffix: Optional[str] = "</w>",
        dropout: Optional[float] = None,
        unicode_normalizer: Optional[str] = None,
    ):
        if vocab_file is not None and merges_file is not None:
            tokenizer = Tokenizer(
                BPE.from_files(vocab_file,
                               merges_file,
                               dropout=dropout,
                               unk_token=unk_token,
                               end_of_word_suffix=suffix))
        else:
            tokenizer = Tokenizer(BPE.empty())

        # Check for Unicode normalization first (before everything else)
        normalizers = []

        if unicode_normalizer:
            normalizers += [unicode_normalizer_from_str(unicode_normalizer)]

        # OpenAI normalization is the same as Bert
        normalizers += [BertNormalizer()]

        # Create the normalizer structure
        if len(normalizers) > 0:
            if len(normalizers) > 1:
                tokenizer.normalizer = Sequence(normalizers)
            else:
                tokenizer.normalizer = normalizers[0]

        tokenizer.pre_tokenizer = BertPreTokenizer()
        tokenizer.decoder = BPEDecoder(suffix=suffix)

        parameters = {
            "model": "BPE",
            "unk_token": unk_token,
            "suffix": suffix,
            "dropout": dropout,
        }

        super().__init__(tokenizer, parameters)

示例#4

显示文件

文件： test_decoders.py 项目： zhezhe123/tokenizers

 def test_instantiate(self):
     assert BPEDecoder() is not None
     assert BPEDecoder(suffix="_") is not None
     assert isinstance(BPEDecoder(), Decoder)
     assert isinstance(BPEDecoder(), BPEDecoder)
     assert isinstance(pickle.loads(pickle.dumps(BPEDecoder())), BPEDecoder)

示例#5

显示文件

 def test_instantiate(self):
     assert BPEDecoder() is not None
     assert BPEDecoder(suffix="_") is not None
     assert isinstance(BPEDecoder(), Decoder)