Python Indexer.add_sentence 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: Indexer

클래스/타입: Indexer

메소드/함수: add_sentence

hotexamples.com에서의 예제들: 2

Python Indexer.add_sentence - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Indexer.Indexer.add_sentence에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Indexer(30)

add_sentence(2)

add_word(2)

count_word(2)

__init__(2)

addToIndex(1)

dump(1)

tagcloud(1)

search(1)

indexer(1)

get_terms(1)

get_posting_list(1)

get_normalized_fequency(1)

extract_classes(1)

create_inverted_index(1)

document_frequency_normalized(1)

add(1)

count_word_in_text(1)

UserInterface(1)

compute_tdidf(1)

build_dictionary(1)

build_data_structure(1)

buidlindex(1)

add_sentences(1)

term_document_frequency(1)

예제 #1

파일 보기

파일: AbsolutePositionalEmbedding.py 프로젝트: keigotak/COVID19Tweet

class AbsolutePositionalEmbedding(AbstractEmbedding):
    def __init__(self, device):
        super(AbsolutePositionalEmbedding, self).__init__(device=device)
        self.max_length = 150
        self.indexer = Indexer(special_tokens={
            '<s>': 0,
            '<unk>': 1,
            '<pad>': 2,
            '<\s>': 3,
            '<mask>': 4
        },
                               with_del_stopwords=self.with_del_stopwords)
        self.indexer.add_sentence(list(map(str, range(self.max_length))),
                                  with_raw=True)
        self.embedding_dim = 20
        self.embedding = nn.Embedding(num_embeddings=len(self.indexer),
                                      embedding_dim=self.embedding_dim,
                                      padding_idx=self.indexer.padding_index)
        self.embedding.to(device)

    def forward(self, sentences):
        sentences = [self.indexer.tokenize(sentence) for sentence in sentences]
        sentences = [[str(i) for i, _ in enumerate(sentence)]
                     for sentence in sentences]
        indexes = [[self.indexer.get_index(word) for word in sentence]
                   for sentence in sentences]
        pad_indexes = self.pad_sequence(indexes)
        pad_indexes = torch.Tensor(pad_indexes).long().to(self.device)
        vectors = self.embedding(pad_indexes)
        return vectors

예제 #2

파일 보기

class PostagEmbedding(AbstractEmbedding):
    def __init__(self, device):
        super(PostagEmbedding, self).__init__(device=device)
        self.indexer = Indexer(
            special_tokens={
                '<s>': 0,
                '<unk>': 1,
                '<pad>': 2,
                '<\s>': 3,
                '<mask>': 4
            },
            with_del_stopwords=False)  # postag embedding の場合だけ必ずFalse
        datasets = Dataset().get_instance()
        sentences = [
            nltk.pos_tag(self.indexer.tokenize(pairs[0]))
            for pairs in datasets['train']
        ]
        sentences = [[pairs[1] for pairs in sentence]
                     for sentence in sentences]
        for sentence in sentences:
            self.indexer.add_sentence(sentence, with_raw=True)
        self.embedding_dim = 10
        self.embedding = nn.Embedding(num_embeddings=len(self.indexer),
                                      embedding_dim=self.embedding_dim,
                                      padding_idx=self.indexer.padding_index)
        self.embedding.to(device)

    def forward(self, sentences):
        if self.with_del_stopwords:
            postags = [
                nltk.pos_tag(self.indexer.tokenize(sentence))
                for sentence in sentences
            ]
            sentences = [[pairs[0] for pairs in postag] for postag in postags]
            postags = [[pairs[1] for pairs in postag] for postag in postags]
            is_stopword = self.indexer.is_stopword(sentences)
            postags = [[tag for sw, tag in zip(stopword, postag) if sw != 1]
                       for stopword, postag in zip(is_stopword, postags)]
        else:
            postags = [
                nltk.pos_tag(self.indexer.tokenize(sentence))
                for sentence in sentences
            ]
            postags = [[pairs[1] for pairs in postag] for postag in postags]
        indexes = [[self.indexer.get_index(tag) for tag in postag]
                   for postag in postags]
        pad_indexes = self.pad_sequence(indexes)
        pad_indexes = torch.Tensor(pad_indexes).long().to(self.device)
        vectors = self.embedding(pad_indexes)
        return vectors