Python BertTokenizer.clean_up_tokenization Exemples

Langage de programmation: Python

Espace de nommage/Pack: transformers

Class/Type: BertTokenizer

Méthode/Fonction: clean_up_tokenization

Exemples au hotexamples.com: 2

Python BertTokenizer.clean_up_tokenization - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de transformers.BertTokenizer.clean_up_tokenization extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

BertTokenizer(30)

convert_ids_to_tokens(30)

from_pretrained(30)

encode_plus(30)

encode(30)

convert_tokens_to_ids(30)

tokenize(30)

batch_encode_plus(18)

decode(14)

save_pretrained(11)

build_inputs_with_special_tokens(8)

add_special_tokens(8)

convert_tokens_to_string(7)

get_special_tokens_mask(5)

save_vocabulary(4)

_pad_token(3)

prepare_for_model(2)

clean_up_tokenization(2)

_convert_id_to_token(2)

_convert_token_to_id(2)

get_vocab(2)

batch_decode(1)

prepare_for_tokenization(1)

_from_pretrained(1)

morphs(1)

get_morphes_by_tags(1)

add_tokens(1)

create_token_type_ids_from_sequences(1)

Méthodes fréquemment utilisées

BertTokenizer (30)

convert_ids_to_tokens (30)

from_pretrained (30)

encode_plus (30)

encode (30)

convert_tokens_to_ids (30)

tokenize (30)

batch_encode_plus (18)

decode (14)

save_pretrained (11)

Méthodes fréquemment utilisées

build_inputs_with_special_tokens (8)

add_special_tokens (8)

convert_tokens_to_string (7)

get_special_tokens_mask (5)

save_vocabulary (4)

_pad_token (3)

prepare_for_model (2)

clean_up_tokenization (2)

_convert_id_to_token (2)

_convert_token_to_id (2)

get_vocab (2)

batch_decode (1)

prepare_for_tokenization (1)

_from_pretrained (1)

morphs (1)

get_morphes_by_tags (1)

add_tokens (1)

create_token_type_ids_from_sequences (1)

Méthodes fréquemment utilisées

get_vocab (2)

batch_decode (1)

prepare_for_tokenization (1)

_from_pretrained (1)

morphs (1)

get_morphes_by_tags (1)

add_tokens (1)

create_token_type_ids_from_sequences (1)

Exemple #1

0

Afficher le fichier

Fichier : hf_bert_bpe.py Projet : dubelbog/st_ch_de

class BertBPE(object): def __init__(self, cfg): try: from transformers import BertTokenizer except ImportError: raise ImportError( "Please install transformers with: pip install transformers") if cfg.bpe_vocab_file: self.bert_tokenizer = BertTokenizer( cfg.bpe_vocab_file, do_lower_case=not cfg.bpe_cased) else: vocab_file_name = ("bert-base-cased" if cfg.bpe_cased else "bert-base-uncased") self.bert_tokenizer = BertTokenizer.from_pretrained( vocab_file_name) def encode(self, x: str) -> str: return " ".join(self.bert_tokenizer.tokenize(x)) def decode(self, x: str) -> str: return self.bert_tokenizer.clean_up_tokenization( self.bert_tokenizer.convert_tokens_to_string(x.split(" "))) def is_beginning_of_word(self, x: str) -> bool: return not x.startswith("##")

Exemple #2

0

Afficher le fichier

class BertBPE(object): @staticmethod def add_args(parser): # fmt: off parser.add_argument('--bpe-cased', action='store_true', help='set for cased BPE', default=False) parser.add_argument('--bpe-vocab-file', type=str, help='bpe vocab file.') # fmt: on def __init__(self, args): try: from transformers import BertTokenizer except ImportError: raise ImportError( "Please install transformers with: pip install transformers") if "bpe_vocab_file" in args: self.bert_tokenizer = BertTokenizer( args.bpe_vocab_file, do_lower_case=not args.bpe_cased) else: vocab_file_name = ("bert-base-cased" if args.bpe_cased else "bert-base-uncased") self.bert_tokenizer = BertTokenizer.from_pretrained( vocab_file_name) def encode(self, x: str) -> str: return " ".join(self.bert_tokenizer.tokenize(x)) def decode(self, x: str) -> str: return self.bert_tokenizer.clean_up_tokenization( self.bert_tokenizer.convert_tokens_to_string(x.split(" "))) def is_beginning_of_word(self, x: str) -> bool: return not x.startswith("##")