Python BPE.read_file Beispiele

Programmiersprache: Python

Namespace / Paketname: tokenizers.models

Klasse / Typ: BPE

Methode / Funktion: read_file

Beispiele auf hotexamples.com: 4

Python BPE.read_file - 4 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tokenizers.models.BPE.read_file, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

empty(24)

BPE(23)

from_files(11)

from_file(5)

read_file(4)

continuing_subword_prefix(1)

dropout(1)

end_of_word_suffix(1)

fuse_unk(1)

read_files(1)

unk_token(1)

Beispiel #1

Datei anzeigen

 def from_file(
     vocab_filename: str,
     merges_filename: Union[str, None],
     **kwargs,
 ):
     vocab, merges = BPE.read_file(vocab_filename, merges_filename)
     return BrainBertTokenizer(vocab, merges, **kwargs)

Beispiel #2

Datei anzeigen

Datei: tokenizer.py Projekt: peternara/pororo-nlp

    def from_file(
        vocab_filename: str,
        merges_filename: Union[str, None],
        **kwargs,
    ):
        # BPE
        if merges_filename:
            vocab, merges = BPE.read_file(vocab_filename, merges_filename)

        # Unigram
        else:
            vocab = []
            merges = None
            with open(vocab_filename, "r") as f_in:
                for line in f_in.readlines():
                    token, score = line.strip().split("\t")
                    vocab.append((token, float(score)))

        return CustomTokenizer(vocab, merges, **kwargs)

Beispiel #3

Datei anzeigen

Datei: sentencepiece_bpe.py Projekt: bhieu79/KC-4.0

 def from_file(vocab_filename: str, merges_filename: str, **kwargs):
     vocab, merges = BPE.read_file(vocab_filename, merges_filename)
     return SentencePieceBPETokenizer(vocab, merges, **kwargs)

Beispiel #4

Datei anzeigen

 def from_file(vocab_filename: str, merges_filename: str, **kwargs):
     vocab, merges = BPE.read_file(vocab_filename, merges_filename)
     return ByteLevelBPETokenizer(vocab, merges, **kwargs)