print 'Initializing library...' lib = Library() d2v = Doc2Vec(lib) id1 = 1 doc1 = u'W nocy ze środy na czwartek zmarł po długiej i ciężkiej chorobie ' \ u'minister kultury i dziedzictwa narodowego Andrzej Zakrzewski. ' \ u'Miał 59 lat. Z wykształcenia prawnik, był historykiem, badaczem ' \ u'historii, m.in. II Rzeczypospolitej. Przez wiele lat pracował w ' \ u'Instytucie Historii PAN. ' \ u'W latach 1991-95 był wysokim rangą urzędnikiem w Kancelarii ' \ u'Prezydenta i jednym z najbliższych współpracowników Lecha ' \ u'Wałęsy. W 1997 roku kandydował do Sejmu z list AWS. Jako poseł ' \ u'tego ugrupowania stanął na czele Komisji Łączności z Polakami za ' \ u'Granicą. Był członkiem Ruchu Stu, a od marca 1998 r. - ' \ u'Stronnictwa Konserwatywno-Ludowego.' id2 = 40 doc2 = u'O 40 procent zostanie podniesiona wkrótce w Rosji minimalna cena ' \ u'wódki - poinformowało ministerstwo gospodarki.' doc1 = Document(id1, doc1) vec1 = d2v.doc2vec(doc1) vec1.normalize() doc2 = Document(id2, doc2) vec2 = d2v.doc2vec(doc2) vec2.normalize() print vec1.cos_dist(vec2)
from tf_idf import Doc2Vec k = 2 alpha = 0.94 if __name__ == '__main__': print 'Initializing library...' lib = Library() d2v = Doc2Vec(lib) try: id = int(sys.argv[1]) input_doc = lib.doc(id) except ValueError: id = None input_doc = Document(id, sys.argv[1]) sample_filename = 'samples/{}'.format(id) classification = [int(id) for id in open(sample_filename).readlines()] input_graph = DistanceGraph(k, input_doc) input_vec = input_graph.svm() input_vec.normalize() print input_doc.text results = [] for doc in lib.documents(): if doc.id == input_doc.id: continue graph = DistanceGraph(k, doc)