Python SentenceTransformer.embed_sentencesの例

プログラミング言語: Python

名前空間/パッケージ名: sentence_transformers

メソッド/関数: embed_sentences

hotexamples.comのコード掲載数: 2

Python SentenceTransformer.embed_sentences - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのsentence_transformers.SentenceTransformer.embed_sentencesの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

SentenceTransformer(30)

encode(30)

get_sentence_embedding_dimension(25)

evaluate(25)

fit(17)

eval(16)

cuda(11)

compile(4)

encode_multi_process(4)

_first_module(4)

load_state_dict(3)

inference_from_dicts(3)

get_max_seq_length(3)

add_module(2)

extract_vectors(2)

embed_sentences(2)

encoder(1)

extract_keywords(1)

build_vocab(1)

fc1(1)

encode_torch(1)

get_beta(1)

add(1)

_last_module(1)

get_sentence_features(1)

get_theta(1)

half(1)

lm_head(1)

load_model(1)

コード例 #1

ファイルを表示

ファイル: emb_distrib_local.py プロジェクト: B-O-O-P/EmbedRank-background-extraction

class EmbeddingDistributorLocal(EmbeddingDistributor):
    """
    Concrete class of @EmbeddingDistributor using a local installation of sent2vec
    https://github.com/epfml/sent2vec
    
    """
    def __init__(self, model_name, is_static=False):
        self.is_static = is_static
        if is_static:
            self.model = sent2vec.Sent2vecModel()
            self.model.load_model(model_name)
        else:
            self.model = SentenceTransformer(model_name)

    def get_tokenized_sents_embeddings(self, sents):
        """
        @see EmbeddingDistributor
        """
        for sent in sents:
            if '\n' in sent:
                raise RuntimeError('New line is not allowed inside a sentence')

        if self.is_static:
            return self.model.embed_sentences(sents)
        return self.model.encode(sentences=sents)

コード例 #2

ファイルを表示

def getSentenceVector(doc, model_params: dict = {}, encoder = "bert", model_name = 'bert-base-cased' ):
  
  sp = spacy.load('en_core_web_sm')
  tokenized = sp(doc)
  sentences = []
  for token in tokenized.sents:
    sentences.append(token.text)

  if encoder in ['bert', 'xlnet', 'longformer', 'reformer', 'distilbert', 'roberta', 'bart', 'finbert']:
    # Use encoder for mapping tokens to embeddings
    word_embedding_model = models.Transformer(model_name, 
                tokenizer_args= model_params['tokenizer_args'] if 'tokenizer_args' in model_params else {})
    # Apply mean pooling to get one fixed sized sentence vector
    pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension(),
                                   pooling_mode_mean_tokens=True,
                                   pooling_mode_cls_token=False,
                                   pooling_mode_max_tokens=False)
    model = SentenceTransformer(modules=[word_embedding_model, pooling_model])   
    sentence_embeddings = model.encode(sentences)
    

  elif encoder == 'use':
    #!pip install embedding-as-service
    from embedding_as_service.text.encode import Encoder
    en = Encoder(embedding='use', model='use_dan', max_seq_length=256)
    sentence_embeddings = en.encode(texts=sentences)


  elif encoder == 'infersent':
    import nltk
    nltk.download('punkt')
    from models import InferSent
    params_model = {'bsize': 64, 'word_emb_dim': 300, 'enc_lstm_dim': 2048,
                    'pool_type': 'max', 'dpout_model': 0.0, 'version': 2}
    infersent = InferSent(params_model)
    W2V_PATH = 'drive/My Drive/wiki-news-300d-1M.vec'
    infersent.set_w2v_path(W2V_PATH)
    infersent.build_vocab(sentences, tokenize=True)
    sentence_embeddings = infersent.encode(sentences, tokenize=True)


  elif encoder == 'sent2vec':
    import sent2vec
    model = sent2vec.Sent2vecModel()
    model.load_model('drive/My Drive/torontobooks_unigram.bin') 
    sentence_embeddings = model.embed_sentences(sentences)
   

  elif encoder == 'laser':
    from laserembeddings import Laser
    laser = Laser()  ## Also used for multilingual sentence embeddings
    sentence_embeddings = laser.embed_sentences(sentences, lang='en') 
  
  
  else:
    raise ValueError('Invalid encoder {} or encoder Unavailable.'.format(encoder))  
  
  return list(zip(sentences, sentence_embeddings))