Python GPTModelの例

プログラミング言語: Python

名前空間/パッケージ名: megatron.model

クラス/型: GPTModel

hotexamples.comのコード掲載数: 3

Python GPTModel - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのmegatron.model.GPTModelの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

GPTModel(3)

よく使われるメソッド

GPTModel (3)

コード例 #1

ファイルを表示

ファイル: pretrain_gpt.py プロジェクト: smoorjani/Megatron-LM

def model_provider(pre_process=True, post_process=True):
    """Build the model."""

    print_rank_0('building GPT model ...')
    model = GPTModel(num_tokentypes=0,
                     parallel_output=True,
                     pre_process=pre_process,
                     post_process=post_process)
    return model

コード例 #2

ファイルを表示

    def model_provider(pre_process=True, post_process=True):
        """Build the model."""

        if eval_metric == 'loss':
            parallel_output = True
        elif eval_metric == 'accuracy':
            parallel_output = False
        else:
            raise NotImplementedError('output type for {} evaluation metric '
                                      'is not supported.'.format(eval_metric))

        print_rank_0('building GPT model ...')
        model = GPTModel(num_tokentypes=0, parallel_output=parallel_output,
                         pre_process=pre_process, post_process=post_process)

        return model

コード例 #3

ファイルを表示

ファイル: pretrain_gpt.py プロジェクト: SimlaBurcu/Megatron-LM_HBFP

def model_provider():
    """Build the model."""

    print_rank_0('building GPT model ...')
    args = get_args()
    if mpu.get_pipeline_model_parallel_world_size() > 1:
        # Determine model based on position of stage in pipeline.
        if mpu.is_pipeline_first_stage():
            model = GPTModelFirstStage(num_tokentypes=0)
        elif mpu.is_pipeline_last_stage():
            model = GPTModelLastStage(num_tokentypes=0, parallel_output=True)
        else:
            model = GPTModelIntermediateStage(num_tokentypes=0)
    else:
        model = GPTModel(num_tokentypes=0, parallel_output=True)

    return model