Python MinHash.digest 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: datasketch.minhash

클래스/타입: MinHash

메소드/함수: digest

hotexamples.com에서의 예제들: 15

Python MinHash.digest - 15개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 datasketch.minhash.MinHash.digest에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

MinHash(30)

update(30)

jaccard(6)

digest(3)

count(2)

예제 #1

파일 보기

파일: minhash_benchmark.py 프로젝트: GitManager/datasketch

def _run_acc(size, seed, num_perm):
    m = MinHash(num_perm=num_perm)
    s = set()
    random.seed(seed)
    for i in range(size):
        v = int_bytes(random.randint(1, size))
        m.digest(sha1(v))
        s.add(v)
    return (m, s)

예제 #2

파일 보기

def _run_acc(size, seed, num_perm):
    m = MinHash(num_perm=num_perm)
    s = set()
    random.seed(seed)
    for i in range(size):
        v = int_bytes(random.randint(1, size))
        m.digest(sha1(v))
        s.add(v)
    return (m, s)

예제 #3

파일 보기

파일: minhash_benchmark.py 프로젝트: GitManager/datasketch

def run_perf(card, num_perm):
    m = MinHash(num_perm=num_perm)
    logging.info("MinHash using %d permutation functions" % num_perm)
    start = time.clock()
    for i in range(card):
        m.digest(sha1(int_bytes(i)))
    duration = time.clock() - start 
    logging.info("Digested %d hashes in %.4f sec" % (card, duration))
    return duration

예제 #4

파일 보기

def run_perf(card, num_perm):
    m = MinHash(num_perm=num_perm)
    logging.info("MinHash using %d permutation functions" % num_perm)
    start = time.clock()
    for i in range(card):
        m.digest(sha1(int_bytes(i)))
    duration = time.clock() - start 
    logging.info("Digested %d hashes in %.4f sec" % (card, duration))
    return duration

예제 #5

파일 보기

파일: inclusion_benchmark.py 프로젝트: shuimu/datasketch

def _run_minhash(A, B, data, seed, p):
    (a_start, a_end), (b_start, b_end) = A, B
    hasher = pyhash.murmur3_32()
    m1 = MinHash(num_perm=2**p)
    m2 = MinHash(num_perm=2**p)
    for i in xrange(a_start, a_end):
        m1.digest(Hash(hasher(data[i], seed=seed)))
    for i in xrange(b_start, b_end):
        m2.digest(Hash(hasher(data[i], seed=seed)))
    return _minhash_inclusion(m1, m2)

예제 #6

파일 보기

파일: similarity_benchmark.py 프로젝트: chagge/datasketch

def _run_minhash(A, B, data, seed, num_perm):
    (a_start, a_end), (b_start, b_end) = A, B
    hasher = pyhash.murmur3_32()
    m1 = MinHash(num_perm=num_perm)
    m2 = MinHash(num_perm=num_perm)
    for i in xrange(a_start, a_end):
        m1.digest(Hash(hasher(data[i], seed=seed)))
    for i in xrange(b_start, b_end):
        m2.digest(Hash(hasher(data[i], seed=seed)))
    return jaccard([m1, m2])

예제 #7

파일 보기

파일: b_bit_minhash_benchmark.py 프로젝트: GitManager/datasketch

def _run_minhash(A, B, data, seed, bs, num_perm):
    (a_start, a_end), (b_start, b_end) = A, B
    hasher = pyhash.murmur3_32()
    m1 = MinHash(num_perm=num_perm)
    m2 = MinHash(num_perm=num_perm)
    for i in xrange(a_start, a_end):
        m1.digest(Hash(hasher(data[i], seed=seed)))
    for i in xrange(b_start, b_end):
        m2.digest(Hash(hasher(data[i], seed=seed)))
    return [m1.jaccard(m2)] + \
            [_b_bit_minhash_jaccard(m1, m2, b) for b in bs]

예제 #8

파일 보기

파일: wd_minhash.py 프로젝트: isendel/wd_matcher

def dict_to_minhash(v):
    """
    Generates a Minhash for a dict object
    :param v: dictionary
    :return: minhash
    """
    m_ = MinHash()
    tokens = my_tokenizer(v)
    for t in tokens:
        m_.digest(sha1(t.encode('utf8')))
    return m_

예제 #9

파일 보기

파일: lsh_test.py 프로젝트: shuimu/datasketch

 def test_pickle(self):
     lsh = LSH(threshold=0.5, num_perm=16)
     m1 = MinHash(16)
     m1.digest(sha1("a".encode("utf8")))
     m2 = MinHash(16)
     m2.digest(sha1("b".encode("utf8")))
     lsh.insert("a", m1)
     lsh.insert("b", m2)
     lsh2 = pickle.loads(pickle.dumps(lsh))
     result = lsh.query(m1)
     self.assertTrue("a" in result)
     result = lsh.query(m2)
     self.assertTrue("b" in result)

예제 #10

파일 보기

파일: minhash_examples.py 프로젝트: GitManager/datasketch

def eg1():
    m1 = MinHash()
    m2 = MinHash()
    for d in data1:
        m1.digest(sha1(d.encode('utf8')))
    for d in data2:
        m2.digest(sha1(d.encode('utf8')))
    print("Estimated Jaccard for data1 and data2 is", jaccard(m1, m2))

    s1 = set(data1)
    s2 = set(data2)
    actual_jaccard = float(len(s1.intersection(s2))) /\
            float(len(s1.union(s2)))
    print("Actual Jaccard for data1 and data2 is", actual_jaccard)

예제 #11

파일 보기

파일: minhash_examples.py 프로젝트: xsongx/datasketch

def eg1():
    m1 = MinHash()
    m2 = MinHash()
    for d in data1:
        m1.digest(sha1(d.encode('utf8')))
    for d in data2:
        m2.digest(sha1(d.encode('utf8')))
    print("Estimated Jaccard for data1 and data2 is", jaccard([m1, m2]))

    s1 = set(data1)
    s2 = set(data2)
    actual_jaccard = float(len(s1.intersection(s2))) /\
            float(len(s1.union(s2)))
    print("Actual Jaccard for data1 and data2 is", actual_jaccard)

예제 #12

파일 보기

파일: lsh_test.py 프로젝트: shuimu/datasketch

 def test_query(self):
     lsh = LSH(threshold=0.5, num_perm=16)
     m1 = MinHash(16)
     m1.digest(sha1("a".encode("utf8")))
     m2 = MinHash(16)
     m2.digest(sha1("b".encode("utf8")))
     lsh.insert("a", m1)
     lsh.insert("b", m2)
     result = lsh.query(m1)
     self.assertTrue("a" in result)
     result = lsh.query(m2)
     self.assertTrue("b" in result)
     
     m3 = MinHash(18)
     self.assertRaises(ValueError, lsh.query, m3)

예제 #13

파일 보기

파일: lsh_test.py 프로젝트: shuimu/datasketch

    def test_insert(self):
        lsh = LSH(threshold=0.5, num_perm=16)
        m1 = MinHash(16)
        m1.digest(sha1("a".encode("utf8")))
        m2 = MinHash(16)
        m2.digest(sha1("b".encode("utf8")))
        lsh.insert("a", m1)
        lsh.insert("b", m2)
        for t in lsh.hashtables:
            self.assertTrue(len(t) >= 1)
            items = []
            for H in t:
                items.extend(t[H])
            self.assertTrue("a" in items)
            self.assertTrue("b" in items)

        m3 = MinHash(18)
        self.assertRaises(ValueError, lsh.insert, "c", m3)

예제 #14

파일 보기

파일: lsh_examples.py 프로젝트: shuimu/datasketch

def eg1():
    m1 = MinHash()
    m2 = MinHash()
    m3 = MinHash()
    for d in data1:
        m1.digest(sha1(d.encode('utf8')))
    for d in data2:
        m2.digest(sha1(d.encode('utf8')))
    for d in data3:
        m3.digest(sha1(d.encode('utf8')))

    # Create LSH index
    lsh = LSH(threshold=0.5)
    lsh.insert("m2", m2)
    lsh.insert("m3", m3)
    result = lsh.query(m1)
    print("Approximate neighbours with Jaccard similarity > 0.5", result)

예제 #15

파일 보기

파일: cardinality_benchmark.py 프로젝트: GitManager/datasketch

def _run_minhash(data, seed, p):
    hasher = pyhash.murmur3_32()
    m = MinHash(num_perm=2**p)
    for d in data:
        m.digest(Hash(hasher(d, seed=seed)))
    return m.count()