Esempi in Python per WhiteSpaceTokenizer.convert_string_to_tokens

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: tokenization.whitespace_tokenizer

Classe/tipologia: WhiteSpaceTokenizer

Metodo/funzione: convert_string_to_tokens

Esempi su hotexamples.com: 2

WhiteSpaceTokenizer.convert_string_to_tokens in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per tokenization.whitespace_tokenizer.WhiteSpaceTokenizer.convert_string_to_tokens, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

convert_tokens_to_string(4)

WhiteSpaceTokenizer(3)

convert_ids_to_tokens(3)

convert_string_to_tokens(2)

Esempio n. 1

Mostra file

 # Embedding similarities
 avg_emb_sims, ext_emb_sims, greedy_emb_sims = metrics.batch_sim_bow(
     hyp_texts, ref_texts)
 avg_emb_sim = np.mean(avg_emb_sims)
 ext_emb_sim = np.mean(ext_emb_sims)
 greedy_emb_sim = np.mean(greedy_emb_sims)
 # SIF embedding similarity
 sif_emb_sims = metrics.batch_sif_emb_sim(hyp_texts, ref_texts)
 sif_emb_sim = np.mean(sif_emb_sims)
 # Distinct n-grams
 intra_dist1, intra_dist2, inter_dist1, inter_dist2, \
     intra_types1, intra_types2, inter_types1, inter_types2 \
     = metrics.batch_div_distinct(hyp_texts)
 # Average sentence length
 hyp_tokens_lst = [
     eval_tokenizer.convert_string_to_tokens(sent) for sent in hyp_texts
 ]
 hyp_lens = [len(tokens) for tokens in hyp_tokens_lst]
 avg_len = np.mean(hyp_lens)
 # Output
 log_s = \
     f"\n<Tst> - {time.time()-start_time:.3f}s - \n"\
     f"\tbleu:          {bleu:.5g}\n"\
     f"\tbow extrema:   {ext_emb_sim:.5g}\n"\
     f"\tbow avg:       {avg_emb_sim:.5g}\n"\
     f"\tbow greedy:    {greedy_emb_sim:.5g}\n"\
     f"\tSIF emb sim:   {sif_emb_sim:.5g}\n"\
     f"\tintra dist 1:  {intra_dist1:.5g}\n"\
     f"\tintra dist 2:  {intra_dist2:.5g}\n"\
     f"\tinter dist 1:  {inter_dist1:.5g}\n"\
     f"\tinter dist 2:  {inter_dist2:.5g}\n"\

Esempio n. 2

Mostra file

File: eval.py Progetto: zhangxt/dialog-processing

 bleu_scores = metrics.batch_bleu(hyp_texts, ref_texts)
 bleu = np.mean(bleu_scores)
 # Embedding similarities
 avg_emb_sims, ext_emb_sims, greedy_emb_sims = metrics.batch_sim_bow(hyp_texts, ref_texts)
 avg_emb_sim = np.mean(avg_emb_sims)
 ext_emb_sim = np.mean(ext_emb_sims)
 greedy_emb_sim = np.mean(greedy_emb_sims)
 # SIF embedding similarity
 sif_emb_sims = metrics.batch_sif_emb_sim(hyp_texts, ref_texts)
 sif_emb_sim = np.mean(sif_emb_sims)
 # Distinct n-grams
 intra_dist1, intra_dist2, inter_dist1, inter_dist2, \
     intra_types1, intra_types2, inter_types1, inter_types2 \
     = metrics.batch_div_distinct(hyp_texts)
 # Average sentence length
 hyp_tokens_lst = [eval_tokenizer.convert_string_to_tokens(sent) for sent in hyp_texts]
 hyp_lens = [len(tokens) for tokens in hyp_tokens_lst]
 avg_len = np.mean(hyp_lens)
 # Output
 log_s = \
     f"\n<Tst> - {time.time()-start_time:.3f}s - \n"\
     f"\tbleu:          {bleu:.5g}\n"\
     f"\tbow extrema:   {ext_emb_sim:.5g}\n"\
     f"\tbow avg:       {avg_emb_sim:.5g}\n"\
     f"\tbow greedy:    {greedy_emb_sim:.5g}\n"\
     f"\tSIF emb sim:   {sif_emb_sim:.5g}\n"\
     f"\tintra dist 1:  {intra_dist1:.5g}\n"\
     f"\tintra dist 2:  {intra_dist2:.5g}\n"\
     f"\tinter dist 1:  {inter_dist1:.5g}\n"\
     f"\tinter dist 2:  {inter_dist2:.5g}\n"\
     f"\tintra types 1: {intra_types1:.5g}\n"\