Python process_sentencepiece_tokens示例

编程语言: Python

命名空间/包名称: jiant.utils.tokenization_utils

方法/功能: process_sentencepiece_tokens

hotexamples.com的示例: 2

Python process_sentencepiece_tokens - 已找到2个示例。这些是从开源项目中提取的最受好评的jiant.utils.tokenization_utils.process_sentencepiece_tokens现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

    def normalize_tokenizations(cls, tokenizer, space_tokenization,
                                target_tokenization):
        """See tokenization_normalization.py for details"""
        space_tokenization = [token.lower() for token in space_tokenization]
        modifed_space_tokenization = bow_tag_tokens(space_tokenization)
        modifed_target_tokenization = process_sentencepiece_tokens(
            target_tokenization)

        return modifed_space_tokenization, modifed_target_tokenization

示例#2

显示文件

文件： test_tokenization_normalization.py 项目： v-mipeng/jiant

def test_process_sentencepiece_token_sequence():
    expected_adjusted_sentencepiece_tokens = [
        "<w>Mr",
        ".",
        "<w>I",
        "m",
        "mel",
        "t",
        "<w>chose",
        "<w>to",
        "<w>focus",
        "<w>on",
        "<w>the",
        "<w>in",
        "comp",
        "re",
        "hen",
        "s",
        "ibility",
        "<w>of",
        "<w>accounting",
        "<w>rules",
        ".",
    ]
    original_sentencepiece_tokens = [
        "▁Mr",
        ".",
        "▁I",
        "m",
        "mel",
        "t",
        "▁chose",
        "▁to",
        "▁focus",
        "▁on",
        "▁the",
        "▁in",
        "comp",
        "re",
        "hen",
        "s",
        "ibility",
        "▁of",
        "▁accounting",
        "▁rules",
        ".",
    ]
    adjusted_sentencepiece_tokens = tu.process_sentencepiece_tokens(
        original_sentencepiece_tokens)
    assert adjusted_sentencepiece_tokens == expected_adjusted_sentencepiece_tokens