Esempi in Python per CharTokenizer

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: espnet2.text.char_tokenizer

Classe/tipologia: CharTokenizer

Esempi su hotexamples.com: 5

CharTokenizer in Python: 5 esempi trovati. Questi sono i migliori esempi reali in Python per espnet2.text.char_tokenizer.CharTokenizer, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

CharTokenizer(3)

text2tokens(1)

tokens2text(1)

Esempio n. 1

Mostra file

File: test_char_tokenizer.py Progetto: sw005320/espnet-1

def test_text2tokens(char_tokenizer: CharTokenizer):
    assert char_tokenizer.text2tokens("He[foo]llo") == [
        "H",
        "e",
        "[foo]",
        "l",
        "l",
        "o",
    ]

Esempio n. 2

Mostra file

def build_tokenizer(
    token_type: str,
    bpemodel: Union[Path, str, Iterable[str]] = None,
    non_linguistic_symbols: Union[Path, str, Iterable[str]] = None,
    remove_non_linguistic_symbols: bool = False,
    space_symbol: str = "<space>",
    delimiter: str = None,
    g2p_type: str = None,
) -> AbsTokenizer:
    """A helper function to instantiate Tokenizer"""
    assert check_argument_types()
    if token_type == "bpe":
        if bpemodel is None:
            raise ValueError('bpemodel is required if token_type = "bpe"')

        if remove_non_linguistic_symbols:
            raise RuntimeError(
                "remove_non_linguistic_symbols is not implemented for token_type=bpe"
            )
        return SentencepiecesTokenizer(bpemodel)

    elif token_type == "word":
        if remove_non_linguistic_symbols and non_linguistic_symbols is not None:
            return WordTokenizer(
                delimiter=delimiter,
                non_linguistic_symbols=non_linguistic_symbols,
                remove_non_linguistic_symbols=True,
            )
        else:
            return WordTokenizer(delimiter=delimiter)

    elif token_type == "char":
        return CharTokenizer(
            non_linguistic_symbols=non_linguistic_symbols,
            space_symbol=space_symbol,
            remove_non_linguistic_symbols=remove_non_linguistic_symbols,
        )

    elif token_type == "phn":
        if g2p_type is None:
            raise ValueError("g2p_type is required if token_type=phn")
        return PhonemeTokenizer(
            g2p_type=g2p_type,
            non_linguistic_symbols=non_linguistic_symbols,
            space_symbol=space_symbol,
            remove_non_linguistic_symbols=remove_non_linguistic_symbols,
        )
    else:
        raise ValueError(f"token_mode must be one of bpe, word, char or phn: "
                         f"{token_type}")

Esempio n. 3

Mostra file

File: test_char_tokenizer.py Progetto: sw005320/espnet-1

def char_tokenizer():
    return CharTokenizer(non_linguistic_symbols=["[foo]"])

Esempio n. 4

Mostra file

File: test_char_tokenizer.py Progetto: sw005320/espnet-1

def test_token2text(char_tokenizer: CharTokenizer):
    assert char_tokenizer.tokens2text(["a", "b", "c"]) == "abc"

Esempio n. 5

Mostra file

File: test_text_converter.py Progetto: zy1022/espnet

def char_converter():
    return CharTokenizer(["[foo]"])