Python TfIdf.vectorの例

プログラミング言語: Python

名前空間/パッケージ名: tfidf

クラス/型: TfIdf

メソッド/関数: vector

hotexamples.comのコード掲載数: 2

Python TfIdf.vector - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtfidf.TfIdf.vectorの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

TfIdf(29)

add_document(13)

similarities(10)

tf(8)

idf_like(7)

idf_smooth(4)

parl_entropy(3)

parl_prob(3)

entropy(3)

idf_entropy(2)

cluster(2)

vector(2)

parse(2)

saveModel(1)

loaddictionary(1)

new_keywords(1)

vocab_lookup(1)

print_documents(1)

tf_idf(1)

tfidf_in_a_doc(1)

serialisation(1)

sim(1)

train_seen(1)

similarity(1)

tokenize(1)

term_freq(1)

save_corpus_to_file(1)

SaveCorpusdic(1)

inv_docfreq(1)

finalize(1)

__init__(1)

add_input_document(1)

buildmodel(1)

calcul(1)

calculate_idf(1)

calculate_tf(1)

calculate_tf_idf(1)

compute_tfidf(1)

getTF_IDF(1)

Saverelatedwords(1)

getVals(1)

get_doc_keywords(1)

get_matrix(1)

get_summary(1)

get_tfidf(1)

get_tokens(1)

get_vectorizer(1)

get_weight(1)

idf(1)

weight_average(1)

コード例 #1

ファイルを表示

ファイル: theme.py プロジェクト: orleika/secussion

 def get(self):
     # standardize
     keywords = self.trimmed_stopwords(self.tokenize(self.theme, pos='noun_verbs'))
     # search about theme
     articles = self.search_articles([keyword.surface for keyword in keywords][:3])
     # clean
     docs = map(self.clean, articles)
     # divide sentences
     sentences_cand = map(self.divide, docs)
     sent = []
     for s in sentences_cand:
         sent.append(list(filter(self.is_sentence, s)))
     sentences = list(chain.from_iterable(sent))
     # tfidf format
     sentence_tokens = []
     for sentence in sentences:
         noun_tokens = [token.surface for token in self.tokenize(sentence, pos='noun')]
         sentence_tokens.append(' '.join(noun_tokens))
     # vectorize
     vector = TfIdf.vector(sentence_tokens)
     # clustering
     cluster = numpy.array(TfIdf.cluster(vector, clusters=3))
     # retrieve opinion with tf
     tfidf_score_index = numpy.argsort(numpy.array([sum(v) for v in vector.toarray()]))[::-1]
     opinions = []
     for i in range(3):
         # retrieve vector index by cluster
         c_index = numpy.where(cluster == i)
         for k in tfidf_score_index:
             if k in c_index[0]:
                 opinions.append(sentences[k])
                 break
     theme = namedtuple('Theme', 'keywords, opinions')
     return theme(' '.join([keyword.surface for keyword in keywords][:3]), opinions)

コード例 #2

ファイルを表示

ファイル: opinion.py プロジェクト: orleika/secussion

    def get(self):
        # standardize
        keywords = self.trimmed_stopwords(
            self.tokenize(self.opinion, pos='noun_verbs'))
        # search about opinion with keywords
        articles = self.search_articles(
            self.keywords + [keyword.surface for keyword in keywords][:3])
        # clean
        docs = map(self.clean, articles)
        # divide sentences
        sentences_cand = map(self.divide, docs)
        sent = []
        for s in sentences_cand:
            sent.append(list(filter(self.is_sentence, s)))
        sentences = list(chain.from_iterable(sent))
        # tfidf format
        sentence_tokens = []
        for sentence in sentences:
            noun_tokens = [
                token.surface for token in self.tokenize(sentence, pos='noun')
            ]
            sentence_tokens.append(' '.join(noun_tokens))
        # vectorize
        vector = TfIdf.vector(sentence_tokens)
        # clustering
        cluster = numpy.array(TfIdf.cluster(vector, clusters=3))
        # retrieve opinion with tf
        tfidf_score = numpy.array([sum(v) for v in vector.toarray()])
        # retrieve opinion with senti
        # senti_score = numpy.array([self.senti(s) for s in sentences])
        senti_score = []
        # for s in sentences:
        #     senti_score.append(self.senti(s))

        for sentence in sentences:
            senti_tokens = [
                token.surface for token in self.tokenize(sentence, pos='senti')
            ]
            senti_score.append(self.senti(senti_tokens))

        senti_score = numpy.array(senti_score)
        score_index = numpy.argsort(tfidf_score * senti_score)
        positives = []
        negatives = []
        for i in range(3):
            # retrieve vector index by cluster
            c_index = numpy.where(cluster == i)
            for k in score_index:
                if k in c_index[0]:
                    negatives.append(sentences[k])
                    break
            for k in score_index[::-1]:
                if k in c_index[0]:
                    positives.append(sentences[k])
                    break
        opinion = namedtuple('Opinion', 'positives, negatives')
        return opinion(positives, negatives)