Python Punctuation示例

编程语言: Python

命名空间/包名称: tokenizers.pre_tokenizers

类/类型: Punctuation

hotexamples.com的示例: 3

Python Punctuation - 已找到3个示例。这些是从开源项目中提取的最受好评的tokenizers.pre_tokenizers.Punctuation现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Punctuation(3)

常用方法

Punctuation (3)

示例#1

显示文件

文件： tokenizer.py 项目： Wadaboa/squad-question-answering

def get_recurrent_tokenizer(vocab,
                            max_context_tokens,
                            unk_token,
                            pad_token,
                            device="cpu"):
    """
    Return a tokenizer to be used with recurrent-based models
    """
    question_tokenizer = Tokenizer(WordLevel(vocab, unk_token=unk_token))
    question_tokenizer.normalizer = Sequence(
        [StripAccents(), Lowercase(), Strip()])
    question_tokenizer.pre_tokenizer = PreSequence(
        [Whitespace(), Punctuation()])
    question_tokenizer.enable_padding(direction="right",
                                      pad_id=vocab[pad_token],
                                      pad_type_id=1,
                                      pad_token=pad_token)

    context_tokenizer = Tokenizer(WordLevel(vocab, unk_token=unk_token))
    context_tokenizer.normalizer = Sequence(
        [StripAccents(), Lowercase(), Strip()])
    context_tokenizer.pre_tokenizer = PreSequence(
        [Whitespace(), Punctuation()])
    context_tokenizer.enable_padding(
        direction="right",
        pad_id=vocab[pad_token],
        pad_type_id=1,
        pad_token=pad_token,
    )
    context_tokenizer.enable_truncation(max_context_tokens)

    return RecurrentSquadTokenizer(question_tokenizer,
                                   context_tokenizer,
                                   device=device)

示例#2

显示文件

文件： test_pre_tokenizers.py 项目： shpotes/tokenizers

 def test_instantiate(self):
     assert Punctuation() is not None
     assert Punctuation("removed") is not None
     assert isinstance(Punctuation(), PreTokenizer)
     assert isinstance(Punctuation(), Punctuation)
     assert isinstance(pickle.loads(pickle.dumps(Punctuation())),
                       Punctuation)

示例#3

显示文件

    def test_bert_like(self):
        pre_tokenizer = Sequence([WhitespaceSplit(), Punctuation()])
        assert isinstance(Sequence([]), PreTokenizer)
        assert isinstance(Sequence([]), Sequence)
        assert isinstance(pickle.loads(pickle.dumps(pre_tokenizer)), Sequence)

        result = pre_tokenizer.pre_tokenize_str("Hey friend!     How are you?!?")
        assert result == [
            ("Hey", (0, 3)),
            ("friend", (4, 10)),
            ("!", (10, 11)),
            ("How", (16, 19)),
            ("are", (20, 23)),
            ("you", (24, 27)),
            ("?", (27, 28)),
            ("!", (28, 29)),
            ("?", (29, 30)),
        ]