Python BertTokenizer.get_vocab Exemples

Langage de programmation: Python

Espace de nommage/Pack: transformers

Class/Type: BertTokenizer

Méthode/Fonction: get_vocab

Exemples au hotexamples.com: 2

Python BertTokenizer.get_vocab - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de transformers.BertTokenizer.get_vocab extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

BertTokenizer(30)

convert_ids_to_tokens(30)

from_pretrained(30)

encode_plus(30)

encode(30)

convert_tokens_to_ids(30)

tokenize(30)

batch_encode_plus(18)

decode(14)

save_pretrained(11)

build_inputs_with_special_tokens(8)

add_special_tokens(8)

convert_tokens_to_string(7)

get_special_tokens_mask(5)

save_vocabulary(4)

_pad_token(3)

prepare_for_model(2)

clean_up_tokenization(2)

_convert_id_to_token(2)

_convert_token_to_id(2)

get_vocab(2)

batch_decode(1)

prepare_for_tokenization(1)

_from_pretrained(1)

morphs(1)

get_morphes_by_tags(1)

add_tokens(1)

create_token_type_ids_from_sequences(1)

Méthodes fréquemment utilisées

BertTokenizer (30)

convert_ids_to_tokens (30)

from_pretrained (30)

encode_plus (30)

encode (30)

convert_tokens_to_ids (30)

tokenize (30)

batch_encode_plus (18)

decode (14)

save_pretrained (11)

Méthodes fréquemment utilisées

build_inputs_with_special_tokens (8)

add_special_tokens (8)

convert_tokens_to_string (7)

get_special_tokens_mask (5)

save_vocabulary (4)

_pad_token (3)

prepare_for_model (2)

clean_up_tokenization (2)

_convert_id_to_token (2)

_convert_token_to_id (2)

get_vocab (2)

batch_decode (1)

prepare_for_tokenization (1)

_from_pretrained (1)

morphs (1)

get_morphes_by_tags (1)

add_tokens (1)

create_token_type_ids_from_sequences (1)

Méthodes fréquemment utilisées

get_vocab (2)

batch_decode (1)

prepare_for_tokenization (1)

_from_pretrained (1)

morphs (1)

get_morphes_by_tags (1)

add_tokens (1)

create_token_type_ids_from_sequences (1)

Exemple #1

0

Afficher le fichier

def test_model(sentence): if " " not in sentence: sentence = re.sub("", " ", sentence)[1:] # print(sentence) tokenizer = BertTokenizer(vocab_file="vocab.txt") input_data = tokenizer([sentence], return_tensors="tf", add_special_tokens=False) input_ids = input_data["input_ids"][0].numpy() input_ids = list(input_ids) input_ids.insert(0, tokenizer.get_vocab()["[CLS]"]) input_ids = tf.constant(input_ids)[None, :] # print(input_ids[0].numpy()) # exit() for i in range(100): predictions = model(input_ids=input_ids, training=False)[0] predictions = predictions[:, -1:, :] predicted_id = tf.cast(tf.argmax(predictions, axis=-1), tf.int32) if tf.equal(predicted_id[0].numpy(), [3]): break input_ids = tf.concat([input_ids, predicted_id], axis=-1) # print(input_ids) result = "".join(tokenizer.batch_decode(tf.squeeze(input_ids, axis=0))) result = result.split("|") up_sentence = result[0] up_sentence = up_sentence.split("]")[1] un_sentence = result[1] # print("上联：", up_sentence) # print("下联：", un_sentence) result = "上联：" + up_sentence + "\n\n" + "下联：" + un_sentence return result

Exemple #2

0

Afficher le fichier

Fichier : Transformer_torch.py Projet : sunlanchang/Tencent-Ads-Algo-Comp-2020

s = s | set(seq) for e in s: f.write(str(e) + '\n') # %% user_train = pd.read_csv('data/train_preliminary/user.csv').sort_values( ['user_id'], ascending=(True, )) Y_gender = user_train['gender'].values Y_age = user_train['age'].values Y_gender = Y_gender - 1 Y_age = Y_age - 1 # Y_age = to_categorical(Y_age) # %% tokenizer = BertTokenizer('tmp/tmp.txt') print(tokenizer.get_vocab()) sample_txt = '456 1 23 456 89 89' tokenizer.tokenize(sample_txt) # %% encoding = tokenizer.encode_plus( sample_txt, max_length=32, add_special_tokens=True, # Add '[CLS]' and '[SEP]' return_token_type_ids=False, pad_to_max_length=True, return_attention_mask=True, return_tensors='pt', # Return PyTorch tensors ) encoding.keys()