Python Vocab.insert_token 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: torchtext.experimental.vocab

클래스/타입: Vocab

메소드/함수: insert_token

hotexamples.com에서의 예제들: 5

Python Vocab.insert_token - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 torchtext.experimental.vocab.Vocab.insert_token에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Vocab(17)

insert_token(5)

get_itos(4)

get_stoi(4)

lookup_token(3)

lookup_indices(2)

append_token(1)

lookup_tokens(1)

예제 #1

파일 보기

파일: test_vocab.py 프로젝트: whitemike889/text

    def test_errors(self):
        token_to_freq = {
            'hello': 4,
            'world': 3,
            'ᑌᑎIᑕOᗪᕮ_Tᕮ᙭T': 5,
            'freq_too_low': 2
        }
        sorted_by_freq_tuples = sorted(token_to_freq.items(),
                                       key=lambda x: x[1],
                                       reverse=True)
        c = OrderedDict(sorted_by_freq_tuples)

        with self.assertRaises(ValueError):
            # Test proper error raised when setting unk token to None
            Vocab(c, unk_token=None)

        with self.assertRaises(RuntimeError):
            # Test proper error raised when setting a token out of bounds
            v = Vocab(c, min_freq=3)
            v.insert_token('new_token', 100)

        with self.assertRaises(RuntimeError):
            # Test proper error raised when looking up a token out of bounds
            v = Vocab(c)
            v.lookup_token(100)

예제 #2

파일 보기

파일: test_vocab.py 프로젝트: zsn-life/text

    def test_errors(self):
        token_to_freq = {
            'hello': 4,
            'world': 3,
            'ᑌᑎIᑕOᗪᕮ_Tᕮ᙭T': 5,
            'freq_too_low': 2
        }
        sorted_by_freq_tuples = sorted(token_to_freq.items(),
                                       key=lambda x: x[1],
                                       reverse=True)
        c = OrderedDict(sorted_by_freq_tuples)

        with self.assertRaises(ValueError):
            # Test proper error raised when setting unk token to None
            Vocab(c, specials=['<unk>', '<bos>'], unk_token=None)

        with self.assertRaises(ValueError):
            # Test proper error raised when specials token doesn't contain unk_token
            Vocab(c, specials=['<pad>', '<bos>'])

        with self.assertRaises(ValueError):
            # Test proper error raised when ordered_dict contains a special token
            updated_token_to_freq = {
                'hello': 4,
                'world': 3,
                'ᑌᑎIᑕOᗪᕮ_Tᕮ᙭T': 5,
                'freq_too_low': 2,
                '<pad>': 1
            }
            updated_sorted_by_freq_tuples = sorted(
                updated_token_to_freq.items(),
                key=lambda x: x[1],
                reverse=True)
            updated_c = OrderedDict(updated_sorted_by_freq_tuples)
            Vocab(updated_c, specials=['<unk>', '<pad>', '<bos>'])

        with self.assertRaises(RuntimeError):
            # Test proper error raised when setting a token out of bounds
            v = Vocab(c, min_freq=3)
            v.insert_token('new_token', 100)

        with self.assertRaises(RuntimeError):
            # Test proper error raised when looking up a token out of bounds
            v = Vocab(c)
            v.lookup_token(100)

예제 #3

파일 보기

파일: test_vocab.py 프로젝트: zsn-life/text

    def test_vocab_set_item(self):
        c = OrderedDict({'a': 2})

        # add item to end
        v = Vocab(c)
        v.insert_token('b', 3)

        self.assertEqual(v['<unk>'], 0)
        self.assertEqual(v['<pad>'], 1)
        self.assertEqual(v['a'], 2)
        self.assertEqual(v['b'], 3)

        # add item to middle
        v = Vocab(c, specials_first=False)
        v.insert_token('b', 0)

        self.assertEqual(v['b'], 0)
        self.assertEqual(v['a'], 1)
        self.assertEqual(v['<unk>'], 2)
        self.assertEqual(v['<pad>'], 3)

예제 #4

파일 보기

class PretrainedSPVocab(nn.Module):
    r"""Vocab based on a pretained sentencepiece model
    """
    def __init__(self, spm_file):
        super(PretrainedSPVocab, self).__init__()
        self.sp_model = load_sp_model(spm_file)
        unk_id = self.sp_model.unk_id()
        unk_token = self.sp_model.IdToPiece(unk_id)
        vocab_list = [
            self.sp_model.IdToPiece(i)
            for i in range(self.sp_model.GetPieceSize())
        ]
        self.vocab = Vocab(OrderedDict([(token, 1) for token in vocab_list]),
                           unk_token=unk_token)

    def forward(self, tokens: List[str]) -> List[int]:
        return self.vocab.lookup_indices(tokens)

    def insert_token(self, token: str, index: int) -> None:
        self.vocab.insert_token(token, index)

예제 #5

파일 보기

파일: test_vocab.py 프로젝트: whitemike889/text

    def test_vocab_insert_token(self):
        c = OrderedDict({'<unk>': 2, 'a': 2})

        # add item to end
        v = Vocab(c)
        v.insert_token('b', 2)

        expected_itos = ['<unk>', 'a', 'b']
        expected_stoi = {x: index for index, x in enumerate(expected_itos)}

        self.assertEqual(v.get_itos(), expected_itos)
        self.assertEqual(dict(v.get_stoi()), expected_stoi)

        # add item to middle
        v = Vocab(c)
        v.insert_token('b', 0)

        expected_itos = ['b', '<unk>', 'a']
        expected_stoi = {x: index for index, x in enumerate(expected_itos)}

        self.assertEqual(v.get_itos(), expected_itos)
        self.assertEqual(dict(v.get_stoi()), expected_stoi)