Python SentenceTransformer.lm_headの例

プログラミング言語: Python

名前空間/パッケージ名: sentence_transformers

メソッド/関数: lm_head

hotexamples.comのコード掲載数: 1

Python SentenceTransformer.lm_head - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのsentence_transformers.SentenceTransformer.lm_headの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

SentenceTransformer(30)

encode(30)

get_sentence_embedding_dimension(25)

evaluate(25)

fit(17)

eval(16)

cuda(11)

compile(4)

encode_multi_process(4)

_first_module(4)

load_state_dict(3)

inference_from_dicts(3)

get_max_seq_length(3)

add_module(2)

extract_vectors(2)

embed_sentences(2)

encoder(1)

extract_keywords(1)

build_vocab(1)

fc1(1)

encode_torch(1)

get_beta(1)

add(1)

_last_module(1)

get_sentence_features(1)

get_theta(1)

half(1)

lm_head(1)

load_model(1)

コード例 #1

ファイルを表示

class EmbExtractor():
    def __init__(self, model_name: str, sentence_transformer: bool, gpu: bool,
                 fp16: bool, pooling: str, without_encoding: bool,
                 use_mlm_head: bool, use_mlm_head_without_layernorm: bool):

        self._sentence_transformer = sentence_transformer
        self._gpu = gpu
        self._fp16 = fp16
        self._pooling = pooling
        self._without_encoding = without_encoding
        self._use_mlm_head = use_mlm_head
        self._use_mlm_head_without_layernorm = use_mlm_head_without_layernorm

        self._tokenizer = AutoTokenizer.from_pretrained(model_name)

        if self._sentence_transformer:
            self._model = SentenceTransformer(model_name)
        else:
            if self._pooling == "mask" or self._use_mlm_head:
                self._model = AutoModelForMaskedLM.from_pretrained(model_name)
                self._model.config.output_hidden_states = True
            else:
                self._model = AutoModel.from_pretrained(model_name)

        if self._gpu:
            self._model.cuda()
        if self._fp16:
            self._model.half()

    def extract_emb(self, lines: Union[str, List[str]]):

        if not isinstance(lines, list):
            lines = [lines]

        if self._sentence_transformer:
            # Shape: (batch_size, num_embs)
            sentence_embedding = self._model.encode(lines)

            return sentence_embedding
        else:
            encoded_input = self._tokenizer.batch_encode_plus(
                lines,
                truncation=True,
                padding=True,
                pad_to_multiple_of=8,
                return_tensors='pt',
                return_special_tokens_mask=True)
            if self._gpu:
                encoded_input = {k: v.cuda() for k, v in encoded_input.items()}

            # Shape: (batch_size, num_tokens, 1)
            special_tokens_mask = (
                1 -
                encoded_input.pop("special_tokens_mask").unsqueeze(axis=-1))

            if self._use_mlm_head:
                self._model.lm_head.decoder = Identity()
                if self._use_mlm_head_without_layernorm:
                    self._model.lm_head.lm_head_norm = Identity()

            with torch.no_grad():
                outputs = self._model(**encoded_input)

            if self._use_mlm_head:
                self._pooling = "mask"

            if self._pooling == "mask":
                assert not self._without_encoding
                # Shape: (batch_size, num_tokens, num_embs)
                output = outputs["hidden_states"][-1]

                if self._use_mlm_head:
                    with torch.no_grad():
                        # Shape: (batch_size, num_tokens, num_embs)
                        output = self._model.lm_head(output)
                # Shape: (batch_size, num_embs) - <mask> is the 2nd token
                sentence_embedding = output[:, 1, :]
                # ...
            elif self._pooling == "cls":
                # Shape: (batch_size, num_tokens, num_embs)
                output = outputs["last_hidden_state"]
                # Shape: (batch_size, num_embs)
                sentence_embedding = output[:, 0, :]
            else:

                if self._without_encoding:
                    # Shape: (batch_size, num_embs)
                    output = outputs["last_hidden_state"][
                        0] * special_tokens_mask
                else:
                    # Shape: (batch_size, num_tokens, num_embs)
                    output = outputs["last_hidden_state"] * special_tokens_mask

                if self._pooling == 'avg':
                    # Shape: (batch_size, num_embs)
                    output_masked = torch.sum(output, dim=1)
                    # Shape: (batch_size, 1)
                    non_zeros_n = torch.sum(special_tokens_mask, dim=1)

                    # Shape: (batch_size, num_embs)
                    sentence_embedding = output_masked / non_zeros_n
                elif self._pooling == 'max':
                    # Shape: (batch_size, num_embs)
                    output_masked = (output).max(dim=1)

                    # Shape: (batch_size, num_embs)
                    sentence_embedding = output_masked.values
                else:
                    logging.critical(" - pooling method doesnt exists")
                    exit()

            return sentence_embedding.float().cpu().numpy()