Python PreTrainedTokenizerBase.prepare_seq2seq_batch示例

编程语言: Python

命名空间/包名称: transformers

方法/功能: prepare_seq2seq_batch

hotexamples.com的示例: 2

Python PreTrainedTokenizerBase.prepare_seq2seq_batch - 已找到2个示例。这些是从开源项目中提取的最受好评的transformers.PreTrainedTokenizerBase.prepare_seq2seq_batch现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

tokenize(3)

prepare_seq2seq_batch(2)

__init__(1)

convert_ids_to_tokens(1)

convert_tokens_to_ids(1)

convert_tokens_to_string(1)

encode(1)

from_pretrained(1)

pad(1)

prepare_for_model(1)

示例#1

显示文件

    def convert_to_features(
        examples: Any,
        tokenizer: PreTrainedTokenizerBase,
        padding: str,
        max_source_length: int,
        max_target_length: int,
        src_text_column_name: str,
        tgt_text_column_name: str,
    ):
        translations = examples[
            "translation"]  # Extract translations from dict

        def extract_text(lang):
            return [text[lang] for text in translations]

        src_texts = extract_text(src_text_column_name)
        src_texts = ["Translate from source text: " + src for src in src_texts]

        encoded_results = tokenizer.prepare_seq2seq_batch(
            src_texts=src_texts,
            tgt_texts=extract_text(tgt_text_column_name),
            max_length=max_source_length,
            max_target_length=max_target_length,
            padding=padding,
        )
        return encoded_results

示例#2

显示文件

 def convert_to_features(
     examples: Any,
     tokenizer: PreTrainedTokenizerBase,
     padding: str,
     max_source_length: int,
     max_target_length: int,
     src_text_column_name: str,
     tgt_text_column_name: str,
 ):
     encoded_results = tokenizer.prepare_seq2seq_batch(
         src_texts=examples[src_text_column_name],
         tgt_texts=examples[tgt_text_column_name],
         max_length=max_source_length,
         max_target_length=max_target_length,
         padding=padding,
     )
     return encoded_results