Python WordpieceTokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: transformers.tokenization_bert

클래스/타입: WordpieceTokenizer

hotexamples.com에서의 예제들: 4

Python WordpieceTokenizer - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 transformers.tokenization_bert.WordpieceTokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

WordpieceTokenizer(4)

tokenize(2)

자주 사용되는 메소드들

WordpieceTokenizer (4)

tokenize (2)

예제 #1

파일 보기

파일: test_tokenization_bert.py 프로젝트: katarinaslama/transformers-1

    def test_wordpiece_tokenizer(self):
        vocab_tokens = ["[UNK]", "[CLS]", "[SEP]", "want", "##want", "##ed", "wa", "un", "runn", "##ing"]

        vocab = {}
        for (i, token) in enumerate(vocab_tokens):
            vocab[token] = i
        tokenizer = WordpieceTokenizer(vocab=vocab, unk_token="[UNK]")

        self.assertListEqual(tokenizer.tokenize(""), [])

        self.assertListEqual(tokenizer.tokenize("unwanted running"), ["un", "##want", "##ed", "runn", "##ing"])

        self.assertListEqual(tokenizer.tokenize("unwantedX running"), ["[UNK]", "runn", "##ing"])

예제 #2

파일 보기

 def from_config(cls, config: Config):
     basic_tokenizer = create_component(ComponentType.TOKENIZER,
                                        config.basic_tokenizer)
     vocab = WordPieceTokenizer.load_vocab(config.wordpiece_vocab_path)
     wordpiece_tokenizer = WordpieceTokenizer(
         vocab=vocab,
         unk_token="[UNK]")  # UNK is for compatibility with HF v0.5
     return cls(vocab, basic_tokenizer, wordpiece_tokenizer)

예제 #3

파일 보기

파일: _tokenizers.py 프로젝트: tangxiaochu123230/spacy-transformers

 def finish_deserializing(self):
     self.ids_to_tokens = OrderedDict([(ids, tok)
                                       for tok, ids in self.vocab.items()])
     if self.do_basic_tokenize:
         self.basic_tokenizer = BasicTokenizer(
             do_lower_case=self.do_lower_case,
             never_split=self.never_split,
             tokenize_chinese_chars=self.tokenize_chinese_chars,
         )
     self.wordpiece_tokenizer = WordpieceTokenizer(vocab=self.vocab,
                                                   unk_token=self.unk_token)
     super().finish_deserializing()

예제 #4

파일 보기

    def test_wordpiece_tokenizer(self):
        vocab_tokens = ["[UNK]", "[CLS]", "[SEP]", "こんにちは", "こん", "にちは" "ばんは", "##こん", "##にちは", "##ばんは"]

        vocab = {}
        for (i, token) in enumerate(vocab_tokens):
            vocab[token] = i
        tokenizer = WordpieceTokenizer(vocab=vocab, unk_token="[UNK]")

        self.assertListEqual(tokenizer.tokenize(""), [])

        self.assertListEqual(tokenizer.tokenize("こんにちは"), ["こんにちは"])

        self.assertListEqual(tokenizer.tokenize("こんばんは"), ["こん", "##ばんは"])

        self.assertListEqual(tokenizer.tokenize("こんばんは こんばんにちは こんにちは"), ["こん", "##ばんは", "[UNK]", "こんにちは"])