Python DeepSpeedTransformerConfig.pre_layer_norm Exemples

Langage de programmation: Python

Espace de nommage/Pack: deepspeed

Méthode/Fonction: pre_layer_norm

Exemples au hotexamples.com: 2

Python DeepSpeedTransformerConfig.pre_layer_norm - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de deepspeed.DeepSpeedTransformerConfig.pre_layer_norm extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

DeepSpeedTransformerConfig(2)

attn_dropout_ratio(2)

batch_size(2)

fp16(2)

heads(2)

hidden_dropout_ratio(2)

initializer_range(2)

intermediate_size(2)

layer_id(2)

max_seq_length(2)

num_hidden_layers(2)

pre_layer_norm(2)

hidden_size(1)

stochastic_mode(1)

Méthodes fréquemment utilisées

DeepSpeedTransformerConfig (2)

attn_dropout_ratio (2)

batch_size (2)

fp16 (2)

heads (2)

hidden_dropout_ratio (2)

initializer_range (2)

intermediate_size (2)

layer_id (2)

max_seq_length (2)

Méthodes fréquemment utilisées

num_hidden_layers (2)

pre_layer_norm (2)

hidden_size (1)

stochastic_mode (1)

Exemple #1

0

Afficher le fichier

def test_backward(batch_size, hidden_size, seq_len, heads, num_layers, is_preln, use_fp16, atol): # Only run fp16 test cases on devices with 7+ capability. major, _ = torch.cuda.get_device_capability() if major < 7 and (use_fp16 is True or is_preln is False): return ds_config = DeepSpeedTransformerConfig() ds_config.layer_id = None ds_config.batch_size = batch_size ds_config.hidden_size = hidden_size ds_config.max_seq_length = seq_len ds_config.heads = heads ds_config.attn_dropout_ratio = 0.0 ds_config.hidden_dropout_ratio = 0.0 ds_config.num_hidden_layers = num_layers ds_config.pre_layer_norm = is_preln ds_config.initializer_range = 0.02 ds_config.fp16 = use_fp16 run_backward(ds_config, atol=atol)

Exemple #2

0

Afficher le fichier

Fichier : test_cuda_forward.py Projet : zhuangwang93/DeepSpeed

def test_forward_stochastic(batch_size, hidden_size, seq_len, heads, num_layers, is_preln, use_fp16): # Only run fp16 test cases on devices with 7+ capability. major, _ = torch.cuda.get_device_capability() if major < 7 and use_fp16 is True: return ds_config = DeepSpeedTransformerConfig() ds_config.layer_id = None ds_config.batch_size = batch_size ds_config.hidden_size = hidden_size ds_config.intermediate_size = 4 * hidden_size ds_config.max_seq_length = seq_len ds_config.heads = heads ds_config.attn_dropout_ratio = 0.0 ds_config.hidden_dropout_ratio = 0.0 ds_config.num_hidden_layers = num_layers ds_config.pre_layer_norm = is_preln ds_config.initializer_range = 0.02 ds_config.fp16 = use_fp16 ds_config.stochastic_mode = True run_forward(ds_config, seq_len, atol=7e-2)