コード例 #1
0
    print 'Initializing library...'
    lib = Library()
    d2v = Doc2Vec(lib)

    id1 = 1
    doc1 = u'W nocy ze środy na czwartek zmarł po długiej i ciężkiej chorobie ' \
           u'minister kultury i dziedzictwa narodowego Andrzej Zakrzewski. ' \
           u'Miał 59 lat. Z wykształcenia prawnik, był historykiem, badaczem ' \
           u'historii, m.in. II Rzeczypospolitej. Przez wiele lat pracował w ' \
           u'Instytucie Historii PAN. ' \
           u'W latach 1991-95 był wysokim rangą urzędnikiem w Kancelarii ' \
           u'Prezydenta i jednym z najbliższych współpracowników Lecha ' \
           u'Wałęsy. W 1997 roku kandydował do Sejmu z list AWS. Jako poseł ' \
           u'tego ugrupowania stanął na czele Komisji Łączności z Polakami za ' \
           u'Granicą. Był członkiem Ruchu Stu, a od marca 1998 r. - ' \
           u'Stronnictwa Konserwatywno-Ludowego.'

    id2 = 40
    doc2 = u'O 40 procent zostanie podniesiona wkrótce w Rosji minimalna cena ' \
           u'wódki - poinformowało ministerstwo gospodarki.'

    doc1 = Document(id1, doc1)
    vec1 = d2v.doc2vec(doc1)
    vec1.normalize()

    doc2 = Document(id2, doc2)
    vec2 = d2v.doc2vec(doc2)
    vec2.normalize()

    print vec1.cos_dist(vec2)
コード例 #2
0
from tf_idf import Doc2Vec

k = 2
alpha = 0.94

if __name__ == '__main__':
    print 'Initializing library...'
    lib = Library()
    d2v = Doc2Vec(lib)

    try:
        id = int(sys.argv[1])
        input_doc = lib.doc(id)
    except ValueError:
        id = None
        input_doc = Document(id, sys.argv[1])

    sample_filename = 'samples/{}'.format(id)
    classification = [int(id) for id in open(sample_filename).readlines()]

    input_graph = DistanceGraph(k, input_doc)
    input_vec = input_graph.svm()
    input_vec.normalize()

    print input_doc.text

    results = []
    for doc in lib.documents():
        if doc.id == input_doc.id: continue

        graph = DistanceGraph(k, doc)