Python TokenEncoder примеры использования

Язык программирования: Python

Пространство имен/Пакет: spaghetto.utils

Класс/Тип: TokenEncoder

Примеров на hotexamples.com: 18

Python TokenEncoder - 18 примеров найдено. Это лучшие примеры Python кода для spaghetto.utils.TokenEncoder, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

TokenEncoder(11)

transform(6)

inverse_transform(4)

fit_transform(1)

Пример #1

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens(self, special_tokens, expected):
        tokenizer = TokenEncoder(special_tokens=special_tokens)
        indices = tokenizer.fit_transform(['abcdefg'])[0]
        result = [tokenizer.id2token_[idx] for idx in indices]
        assert result == expected

        joined = tokenizer.inverse_transform([indices])[0]
        assert joined == 'abcdefg'

Пример #2

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens(self, special_tokens, expected):
        tokenizer = TokenEncoder(special_tokens=special_tokens)
        indices = tokenizer.fit_transform(['abcdefg'])[0]
        result = [tokenizer.id2token_[idx] for idx in indices]
        assert result == expected

        joined = tokenizer.inverse_transform([indices])[0]
        assert joined == 'abcdefg'

Пример #3

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_encoded_and_decodes_simple_text(self):
        X = 'abcdef'
        tokenizer = TokenEncoder().fit(X)

        encoded = tokenizer.transform(['fedcba'])[0]
        assert len(encoded) == 6
        assert all([type(idx) == int for idx in encoded])

        decoded = tokenizer.inverse_transform([encoded])[0]
        assert decoded == 'fedcba'

Пример #4

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_encoded_and_decodes_simple_text(self):
        X = 'abcdef'
        tokenizer = TokenEncoder().fit(X)

        encoded = tokenizer.transform(['fedcba'])[0]
        assert len(encoded) == 6
        assert all([type(idx) == int for idx in encoded])

        decoded = tokenizer.inverse_transform([encoded])[0]
        assert decoded == 'fedcba'

Пример #5

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_creates_indices(self):
        X = 'abcdef'
        tokenizer = TokenEncoder().fit(X)

        # num tokens + start token + end token
        assert len(tokenizer.token2id_) == 8

        expected_keys = set(
            list('abcdef') + [tokenizer.start_token, tokenizer.end_token])
        assert set(tokenizer.token2id_.keys()) == expected_keys

Пример #6

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_wo_args(self, line, expected):
        tokenizer = TokenEncoder().fit(line)

        result = tokenizer.transform([line])[0]
        result = [tokenizer.id2token_[idx] for idx in result]
        assert result == expected

Пример #7

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_detokenize_with_space(self, line):
        tokenizer = TokenEncoder(separator=" ").fit([line])
        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]

        assert decoded == line

Пример #8

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_split_on_space(self, line, expected):
        tokenizer = TokenEncoder(separator=" ").fit([line])

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected

Пример #9

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens_more_matches(self, line, expected):
        tokenizer = TokenEncoder(special_tokens=['abc']).fit(ALPHABET)

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected

Пример #10

Показать файл

 def encoder(self):
     encoder = TokenEncoder().fit(self.X)
     return encoder

Пример #11

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_split_on_space(self, line, expected):
        tokenizer = TokenEncoder(separator=" ").fit([line])

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected

Пример #12

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_special_token(self, line):
        tokenizer = TokenEncoder(special_tokens=['$']).fit(['hi'])

        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]
        assert decoded == line

Пример #13

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_wo_args(self, line, expected):
        tokenizer = TokenEncoder().fit(line)

        result = tokenizer.transform([line])[0]
        result = [tokenizer.id2token_[idx] for idx in result]
        assert result == expected

Пример #14

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

 def test_tokenizer_with_unsupported_separator(self):
     with pytest.raises(NotImplementedError):
         TokenEncoder(separator='and')

Пример #15

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_detokenize_with_space(self, line):
        tokenizer = TokenEncoder(separator=" ").fit([line])
        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]

        assert decoded == line

Пример #16

Показать файл

Файл: test_functional.py Проект: BenjaminBossan/spaghetto

def encoder(X):
    encoder = TokenEncoder().fit(X)
    return encoder

Пример #17

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_special_token(self, line):
        tokenizer = TokenEncoder(special_tokens=['$']).fit(['hi'])

        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]
        assert decoded == line

Пример #18

Показать файл

Файл: test_utils.py Проект: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens_more_matches(self, line, expected):
        tokenizer = TokenEncoder(special_tokens=['abc']).fit(ALPHABET)

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected