Python WordEmbedding 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: text2vec.embeddings.word_embedding

클래스/타입: WordEmbedding

hotexamples.com에서의 예제들: 7

Python WordEmbedding - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 text2vec.embeddings.word_embedding.WordEmbedding에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

WordEmbedding(5)

embed(2)

embed_one(2)

자주 사용되는 메소드들

WordEmbedding (5)

embed (2)

embed_one (2)

예제 #1

파일 보기

def test_word_emb():
    b = WordEmbedding()
    data1 = '你 好 啊'.split(' ')
    r = b.embed([data1], True)

    print(r)
    print(r.shape)

예제 #2

파일 보기

파일: vector.py 프로젝트: zhangxing1986/simtext

 def load_model(self):
     if not self.model:
         if self.embedding_type == EmbType.BERT:
             from text2vec.embeddings.bert_embedding import BERTEmbedding
             self.model = BERTEmbedding(sequence_length=128)
         elif self.embedding_type == EmbType.W2V:
             from text2vec.embeddings.word_embedding import WordEmbedding
             self.model = WordEmbedding()
         else:
             raise ValueError('set error embedding type.')

예제 #3

파일 보기

파일: vector.py 프로젝트: zhangxing1986/simtext

class Vector(object):
    def __init__(self, embedding_type='w2v'):
        self.embedding_type = embedding_type
        self.model = None

    def load_model(self):
        if not self.model:
            if self.embedding_type == EmbType.BERT:
                from text2vec.embeddings.bert_embedding import BERTEmbedding
                self.model = BERTEmbedding(sequence_length=128)
            elif self.embedding_type == EmbType.W2V:
                from text2vec.embeddings.word_embedding import WordEmbedding
                self.model = WordEmbedding()
            else:
                raise ValueError('set error embedding type.')

    def tokenize(self, text):
        if not text.strip():
            return []
        self.load_model()
        return self.model.tokenizer.tokenize(text)

    def encode(self, tokens):
        ret = 0.0
        if not tokens:
            return ret
        self.load_model()
        if isinstance(tokens, str):
            tokens = self.tokenize(tokens)
        return self.model.embed_one(tokens)

예제 #4

파일 보기

 def load_model(self):
     if not self.model:
         if self.embedding_type == EmbType.BERT:
             from text2vec.embeddings.bert_embedding import BERTEmbedding
             self.model = BERTEmbedding(model_folder=self.bert_model_folder,
                                        layer_nums=self.bert_layer_nums,
                                        trainable=self.trainable,
                                        sequence_length=self.sequence_length,
                                        processor=self.processor)
         elif self.embedding_type == EmbType.W2V:
             from text2vec.embeddings.word_embedding import WordEmbedding
             self.model = WordEmbedding(w2v_path=self.w2v_path,
                                        w2v_kwargs=self.w2v_kwargs,
                                        sequence_length=self.sequence_length,
                                        processor=self.processor,
                                        trainable=self.trainable)
         else:
             raise ValueError('set error embedding type.')

예제 #5

파일 보기

파일: vector.py 프로젝트: zhongzhongBaby/text2vec

class Vector(object):
    def __init__(self,
                 embedding_type=EmbType.W2V,
                 w2v_path='',
                 w2v_kwargs=None,
                 sequence_length=128,
                 processor=None,
                 trainable=False,
                 bert_model_folder='',
                 bert_layer_nums=4):
        self.embedding_type = embedding_type
        self.w2v_path = w2v_path
        self.w2v_kwargs = w2v_kwargs  # default: {binary:False}
        self.sequence_length = sequence_length
        self.processor = processor
        self.trainable = trainable
        self.bert_model_folder = bert_model_folder
        self.bert_layer_nums = bert_layer_nums
        self.model = None

    def load_model(self):
        if not self.model:
            if self.embedding_type == EmbType.BERT:
                from text2vec.embeddings.bert_embedding import BERTEmbedding
                self.model = BERTEmbedding(
                    model_folder=self.bert_model_folder,
                    layer_nums=self.bert_layer_nums,
                    trainable=self.trainable,
                    sequence_length=self.sequence_length,
                    processor=self.processor)
            elif self.embedding_type == EmbType.W2V:
                from text2vec.embeddings.word_embedding import WordEmbedding
                self.model = WordEmbedding(
                    w2v_path=self.w2v_path,
                    w2v_kwargs=self.w2v_kwargs,
                    sequence_length=self.sequence_length,
                    processor=self.processor,
                    trainable=self.trainable)
            else:
                raise ValueError('set error embedding type.')

    def tokenize(self, text):
        if not text.strip():
            return []
        self.load_model()
        return self.model.tokenizer.tokenize(text.lower().strip())

    def encode(self, tokens):
        ret = 0.0
        if not tokens:
            return ret
        self.load_model()
        if isinstance(tokens, str):
            tokens = self.tokenize(tokens)
        return self.model.embed_one(tokens)

예제 #6

파일 보기

파일: test_embedding.py 프로젝트: xiaoxiaoxiaodoudou/text2vec

 def setUpClass(cls):
     from text2vec.embeddings.word_embedding import WordEmbedding
     cls.embedding = WordEmbedding(sequence_length=SEQUENCE_LENGTH)

예제 #7

파일 보기

파일: emb_w2v_test.py 프로젝트: etrigger/text2vec

# -*- coding: utf-8 -*-
"""
@author:XuMing（[email protected])
@description: 
"""
from text2vec.embeddings.word_embedding import WordEmbedding

if __name__ == '__main__':
    b = WordEmbedding()
    data1 = '你 好 啊'.split(' ')
    r = b.embed([data1], True)

    print(r)
    print(r.shape)