Python TfIdf.inv_docfreqの例

プログラミング言語: Python

名前空間/パッケージ名: tfidf

クラス/型: TfIdf

メソッド/関数: inv_docfreq

hotexamples.comのコード掲載数: 1

Python TfIdf.inv_docfreq - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtfidf.TfIdf.inv_docfreqの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

TfIdf(29)

add_document(13)

similarities(10)

tf(8)

idf_like(7)

idf_smooth(4)

parl_entropy(3)

parl_prob(3)

entropy(3)

idf_entropy(2)

cluster(2)

vector(2)

parse(2)

saveModel(1)

loaddictionary(1)

new_keywords(1)

vocab_lookup(1)

print_documents(1)

tf_idf(1)

tfidf_in_a_doc(1)

serialisation(1)

sim(1)

train_seen(1)

similarity(1)

tokenize(1)

term_freq(1)

save_corpus_to_file(1)

SaveCorpusdic(1)

inv_docfreq(1)

finalize(1)

__init__(1)

add_input_document(1)

buildmodel(1)

calcul(1)

calculate_idf(1)

calculate_tf(1)

calculate_tf_idf(1)

compute_tfidf(1)

getTF_IDF(1)

Saverelatedwords(1)

getVals(1)

get_doc_keywords(1)

get_matrix(1)

get_summary(1)

get_tfidf(1)

get_tokens(1)

get_vectorizer(1)

get_weight(1)

idf(1)

weight_average(1)

コード例 #1

ファイルを表示

class TestSequenceFunctions(unittest.TestCase):
    def setUp(self):
        self.unk_cutoff = 2
        self.vocab = TfIdf(unk_cutoff=self.unk_cutoff)

    def test_vocab(self):
        self.vocab.train_seen("a", 300)

        self.vocab.train_seen("b")
        self.vocab.train_seen("c")
        self.vocab.finalize()

        # Infrequent words should look the same
        self.assertEqual(self.vocab.vocab_lookup("b"),
                         self.vocab.vocab_lookup("c"))

        # Infrequent words should look the same as never seen words
        self.assertEqual(self.vocab.vocab_lookup("b"),
                         self.vocab.vocab_lookup("d"), "")

        # The frequent word should be different from the infrequent word
        self.assertNotEqual(self.vocab.vocab_lookup("a"),
                            self.vocab.vocab_lookup("b"))

    def test_censor(self):
        self.vocab.train_seen("a", 300)

        self.vocab.train_seen("b")
        self.vocab.train_seen("c")
        self.vocab.finalize()

        censored_a = [str(x) for x in self.vocab.tokenize("a b d")]
        censored_b = [str(x) for x in self.vocab.tokenize("d b a")]
        censored_c = [str(x) for x in self.vocab.tokenize("a b d")]
        censored_d = [str(x) for x in self.vocab.tokenize("b d a")]

        self.assertEqual(censored_a, censored_c)
        self.assertEqual(censored_b, censored_d)

        # Should add start and end tag
        print(censored_a)
        self.assertEqual(len(censored_a), 3)
        self.assertEqual(censored_a[0], censored_b[2])
        self.assertEqual(censored_a[1], censored_b[0])

    def test_tf(self):
        self.vocab.train_seen("a", 300)
        self.vocab.finalize()

        self.vocab.add_document("a a b")

        # Test MLE
        word_a = self.vocab.vocab_lookup("a")
        word_b = self.vocab.vocab_lookup("b")
        word_c = self.vocab.vocab_lookup("c")

        self.assertAlmostEqual(self.vocab.term_freq(word_a), 0.66666666)
        self.assertAlmostEqual(self.vocab.term_freq(word_b), 0.33333333)
        self.assertAlmostEqual(self.vocab.term_freq(word_c), 0.33333333)

    def test_df(self):
        self.vocab.train_seen("a", 300)
        self.vocab.train_seen("b", 100)
        self.vocab.finalize()

        self.vocab.add_document("a a b")
        self.vocab.add_document("b b c")
        self.vocab.add_document("a a a")
        self.vocab.add_document("a a a")

        # Test MLE
        word_a = self.vocab.vocab_lookup("a")
        word_b = self.vocab.vocab_lookup("b")
        word_c = self.vocab.vocab_lookup("c")
        word_d = self.vocab.vocab_lookup("d")

        self.assertAlmostEqual(self.vocab.inv_docfreq(word_a),
                               log10(1.3333333))
        self.assertAlmostEqual(self.vocab.inv_docfreq(word_b), log10(2.0))
        self.assertAlmostEqual(self.vocab.inv_docfreq(word_c), log10(4.0))
        self.assertAlmostEqual(self.vocab.inv_docfreq(word_d), log10(4.0))