Python _pad_to_len Exemples

Langage de programmation: Python

Espace de nommage/Pack: dpr.models.reader

Méthode/Fonction: _pad_to_len

Exemples au hotexamples.com: 2

Python _pad_to_len - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de dpr.models.reader._pad_to_len extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Exemple #1

0

Afficher le fichier

Fichier : biencoder.py Projet : dell-research-harvard/DPR

def _select_span_with_token( text: str, tensorizer: Tensorizer, token_str: str = "[START_ENT]" ) -> T: id = tensorizer.get_token_id(token_str) query_tensor = tensorizer.text_to_tensor(text) if id not in query_tensor: query_tensor_full = tensorizer.text_to_tensor(text, apply_max_len=False) token_indexes = (query_tensor_full == id).nonzero() if token_indexes.size(0) > 0: start_pos = token_indexes[0, 0].item() # add some randomization to avoid overfitting to a specific token position left_shit = int(tensorizer.max_length / 2) rnd_shift = int((rnd.random() - 0.5) * left_shit / 2) left_shit += rnd_shift query_tensor = query_tensor_full[start_pos - left_shit :] cls_id = tensorizer.tokenizer.cls_token_id if query_tensor[0] != cls_id: query_tensor = torch.cat([torch.tensor([cls_id]), query_tensor], dim=0) from dpr.models.reader import _pad_to_len query_tensor = _pad_to_len( query_tensor, tensorizer.get_pad_id(), tensorizer.max_length ) query_tensor[-1] = tensorizer.tokenizer.sep_token_id # logger.info('aligned query_tensor %s', query_tensor) assert id in query_tensor, "query_tensor={}".format(query_tensor) return query_tensor else: raise RuntimeError( "[START_ENT] toke not found for Entity Linking sample query={}".format( text ) ) else: return query_tensor

Exemple #2

0

Afficher le fichier

Fichier : dense_retriever.py Projet : facebookresearch/DPR

def generate_question_vectors( question_encoder: torch.nn.Module, tensorizer: Tensorizer, questions: List[str], bsz: int, query_token: str = None, selector: RepTokenSelector = None, ) -> T: n = len(questions) query_vectors = [] with torch.no_grad(): for j, batch_start in enumerate(range(0, n, bsz)): batch_questions = questions[batch_start:batch_start + bsz] if query_token: # TODO: tmp workaround for EL, remove or revise if query_token == "[START_ENT]": batch_tensors = [ _select_span_with_token(q, tensorizer, token_str=query_token) for q in batch_questions ] else: batch_tensors = [ tensorizer.text_to_tensor(" ".join([query_token, q])) for q in batch_questions ] elif isinstance(batch_questions[0], T): batch_tensors = [q for q in batch_questions] else: batch_tensors = [ tensorizer.text_to_tensor(q) for q in batch_questions ] # TODO: this only works for Wav2vec pipeline but will crash the regular text pipeline max_vector_len = max(q_t.size(1) for q_t in batch_tensors) min_vector_len = min(q_t.size(1) for q_t in batch_tensors) if max_vector_len != min_vector_len: # TODO: _pad_to_len move to utils from dpr.models.reader import _pad_to_len batch_tensors = [ _pad_to_len(q.squeeze(0), 0, max_vector_len) for q in batch_tensors ] q_ids_batch = torch.stack(batch_tensors, dim=0).cuda() q_seg_batch = torch.zeros_like(q_ids_batch).cuda() q_attn_mask = tensorizer.get_attn_mask(q_ids_batch) if selector: rep_positions = selector.get_positions(q_ids_batch, tensorizer) _, out, _ = BiEncoder.get_representation( question_encoder, q_ids_batch, q_seg_batch, q_attn_mask, representation_token_pos=rep_positions, ) else: _, out, _ = question_encoder(q_ids_batch, q_seg_batch, q_attn_mask) query_vectors.extend(out.cpu().split(1, dim=0)) if len(query_vectors) % 100 == 0: logger.info("Encoded queries %d", len(query_vectors)) query_tensor = torch.cat(query_vectors, dim=0) logger.info("Total encoded queries tensor %s", query_tensor.size()) assert query_tensor.size(0) == len(questions) return query_tensor