Python TokenEncoder 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: spaghetto.utils

클래스/타입: TokenEncoder

hotexamples.com에서의 예제들: 18

Python TokenEncoder - 18개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 spaghetto.utils.TokenEncoder에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TokenEncoder(11)

transform(6)

inverse_transform(4)

fit_transform(1)

예제 #1

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens(self, special_tokens, expected):
        tokenizer = TokenEncoder(special_tokens=special_tokens)
        indices = tokenizer.fit_transform(['abcdefg'])[0]
        result = [tokenizer.id2token_[idx] for idx in indices]
        assert result == expected

        joined = tokenizer.inverse_transform([indices])[0]
        assert joined == 'abcdefg'

예제 #2

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens(self, special_tokens, expected):
        tokenizer = TokenEncoder(special_tokens=special_tokens)
        indices = tokenizer.fit_transform(['abcdefg'])[0]
        result = [tokenizer.id2token_[idx] for idx in indices]
        assert result == expected

        joined = tokenizer.inverse_transform([indices])[0]
        assert joined == 'abcdefg'

예제 #3

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_encoded_and_decodes_simple_text(self):
        X = 'abcdef'
        tokenizer = TokenEncoder().fit(X)

        encoded = tokenizer.transform(['fedcba'])[0]
        assert len(encoded) == 6
        assert all([type(idx) == int for idx in encoded])

        decoded = tokenizer.inverse_transform([encoded])[0]
        assert decoded == 'fedcba'

예제 #4

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_encoded_and_decodes_simple_text(self):
        X = 'abcdef'
        tokenizer = TokenEncoder().fit(X)

        encoded = tokenizer.transform(['fedcba'])[0]
        assert len(encoded) == 6
        assert all([type(idx) == int for idx in encoded])

        decoded = tokenizer.inverse_transform([encoded])[0]
        assert decoded == 'fedcba'

예제 #5

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_creates_indices(self):
        X = 'abcdef'
        tokenizer = TokenEncoder().fit(X)

        # num tokens + start token + end token
        assert len(tokenizer.token2id_) == 8

        expected_keys = set(
            list('abcdef') + [tokenizer.start_token, tokenizer.end_token])
        assert set(tokenizer.token2id_.keys()) == expected_keys

예제 #6

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_wo_args(self, line, expected):
        tokenizer = TokenEncoder().fit(line)

        result = tokenizer.transform([line])[0]
        result = [tokenizer.id2token_[idx] for idx in result]
        assert result == expected

예제 #7

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_detokenize_with_space(self, line):
        tokenizer = TokenEncoder(separator=" ").fit([line])
        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]

        assert decoded == line

예제 #8

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_split_on_space(self, line, expected):
        tokenizer = TokenEncoder(separator=" ").fit([line])

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected

예제 #9

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens_more_matches(self, line, expected):
        tokenizer = TokenEncoder(special_tokens=['abc']).fit(ALPHABET)

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected

예제 #10

파일 보기

 def encoder(self):
     encoder = TokenEncoder().fit(self.X)
     return encoder

예제 #11

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_split_on_space(self, line, expected):
        tokenizer = TokenEncoder(separator=" ").fit([line])

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected

예제 #12

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_special_token(self, line):
        tokenizer = TokenEncoder(special_tokens=['$']).fit(['hi'])

        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]
        assert decoded == line

예제 #13

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_wo_args(self, line, expected):
        tokenizer = TokenEncoder().fit(line)

        result = tokenizer.transform([line])[0]
        result = [tokenizer.id2token_[idx] for idx in result]
        assert result == expected

예제 #14

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

 def test_tokenizer_with_unsupported_separator(self):
     with pytest.raises(NotImplementedError):
         TokenEncoder(separator='and')

예제 #15

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_detokenize_with_space(self, line):
        tokenizer = TokenEncoder(separator=" ").fit([line])
        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]

        assert decoded == line

예제 #16

파일 보기

파일: test_functional.py 프로젝트: BenjaminBossan/spaghetto

def encoder(X):
    encoder = TokenEncoder().fit(X)
    return encoder

예제 #17

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_special_token(self, line):
        tokenizer = TokenEncoder(special_tokens=['$']).fit(['hi'])

        encoded = tokenizer.transform([line])
        decoded = tokenizer.inverse_transform(encoded)[0]
        assert decoded == line

예제 #18

파일 보기

파일: test_utils.py 프로젝트: BenjaminBossan/spaghetto

    def test_tokenizer_with_special_tokens_more_matches(self, line, expected):
        tokenizer = TokenEncoder(special_tokens=['abc']).fit(ALPHABET)

        encoded = tokenizer.transform([line])[0]
        expected = [tokenizer.token2id_[token] for token in expected]
        assert encoded == expected