예제 #1
0
파일: predicates.py 프로젝트: shahin/dedupe
def twoGramFingerprint(field):
    if len(field) > 1:
        return (u''.join(
            sorted(gram.strip()
                   for gram in set(ngrams(field.replace(' ', ''), 2)))), )
    else:
        return ()
예제 #2
0
def commonSixGram(field):
    """Split the field into overlapping windows of 6 characters (spaces removed).

    Examples:
    .. code:: python
        > print(commonFourGram('John Woodward'))
        > {'JohnWo', 'Woodwa', 'hnWood', 'nWoodw', 'odward', 'ohnWoo', 'oodwar'}
    """
    return set(ngrams(field.replace(' ', ''), 6))
예제 #3
0
파일: predicates.py 프로젝트: zmaril/dedupe
def commonSixGram(field):
    """return 6-grams"""
    return ngrams(field, 6)
예제 #4
0
파일: predicates.py 프로젝트: zmaril/dedupe
def commonFourGram(field):
    """return 4-grams"""
    return ngrams(field, 4)
예제 #5
0
def commonSixGram(field):
    """return 6-grams"""
    return set(ngrams(field.replace(' ', ''), 6))
예제 #6
0
def twoGramFingerprint(field):
    return (u''.join(sorted(gram.strip() for gram in ngrams(field, 2))), )
예제 #7
0
파일: predicates.py 프로젝트: shahin/dedupe
def commonFourGram(field):
    """return 4-grams"""
    return set(ngrams(field.replace(' ', ''), 4))
예제 #8
0
파일: predicates.py 프로젝트: shahin/dedupe
def oneGramFingerprint(field):
    return (u''.join(sorted(set(ngrams(field.replace(' ', ''), 1)))).strip(), )
예제 #9
0
def commonSixGram(field: str) -> Set[str]:
    """return 6-grams"""
    return set(ngrams(field.replace(' ', ''), 6))
예제 #10
0
파일: predicates.py 프로젝트: 01-/dedupe
 def preprocess(self, doc) :
     return tuple(ngrams(doc.replace(' ', ''), 2))
예제 #11
0
def commonSixGram(field):
    """return 6-grams"""
    return ngrams(field, 6)
예제 #12
0
def commonFourGram(field):
    """return 4-grams"""
    return ngrams(field, 4)
예제 #13
0
def twoGramFingerprint(field) :
    return (u''.join(sorted(gram.strip() for gram in ngrams(field, 2))),)
예제 #14
0
def oneGramFingerprint(field) :
    return (u''.join(sorted(ngrams(field, 1))).strip(),)
예제 #15
0
 def preprocess(self, doc):
     return tuple(sorted(ngrams(" ".join(strip_punc(doc).split()), 2)))
예제 #16
0
def commonFourGram(field: str) -> Set[str]:
    """return 4-grams"""
    return set(ngrams(field.replace(' ', ''), 4))
예제 #17
0
 def preprocess(self, doc):
     return tuple(sorted(ngrams(" ".join(strip_punc(doc).split()), 2)))
예제 #18
0
파일: predicates.py 프로젝트: shahin/dedupe
 def preprocess(self, doc):
     return tuple(ngrams(doc.replace(' ', ''), 2))
예제 #19
0
def oneGramFingerprint(field):
    return (u''.join(sorted(set(ngrams(field.replace(' ', ''), 1)))).strip(),)
예제 #20
0
def twoGramFingerprint(field):
    if len(field) > 1:
        return (u''.join(sorted(gram.strip() for gram
                                in set(ngrams(field.replace(' ', ''), 2)))),)
    else:
        return ()
예제 #21
0
def commonFourGram(field):
    """return 4-grams"""
    return set(ngrams(field.replace(' ', ''), 4))
예제 #22
0
파일: predicates.py 프로젝트: shahin/dedupe
def commonSixGram(field):
    """return 6-grams"""
    return set(ngrams(field.replace(' ', ''), 6))
예제 #23
0
def oneGramFingerprint(field):
    return (u''.join(sorted(ngrams(field, 1))).strip(), )