Python TextNormalizer.crop_word示例

编程语言: Python

类/类型: TextNormalizer

方法/功能: crop_word

hotexamples.com的示例: 2

Python TextNormalizer.crop_word - 已找到2个示例。这些是从开源项目中提取的最受好评的TextNormalizer.crop_word现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

preprocess_question_str(4)

TextNormalizer(3)

normalize_word(3)

crop_word(2)

preprocess_question(2)

lemmatize_word(1)

setVocabulary(1)

示例#1

显示文件

def calc_similarity( quest, parag ):
    quest_words = set(TextNormalizer.tokenize_words(quest))

    parag_words = set(TextNormalizer.tokenize_words(parag))
    parag_lemmas = set(TextNormalizer.tokenize_lemmas(parag))
    parag_stems = set(TextNormalizer.tokenize_stems(parag))
    parag_crops = set(TextNormalizer.tokenize_crops(parag))

    matched_parag_words = set()

    sim = 0.0
    for qword in quest_words:
        if qword in parag_words:
            matched_parag_words.add(qword)
            sim += 1.0
        else:
            qlemma = TextNormalizer.lemmatize_word(qword)
            if qlemma in parag_lemmas:
                #matched_parag_lemmas.add(qlemma)
                sim += 1.0
            else:
                qstem = TextNormalizer.stem_word(qword)
                if qstem in parag_stems:
                    sim += 0.95
                else:
                    qcrop = TextNormalizer.crop_word(qword)
                    if qcrop in parag_crops:
                        sim += 0.80
                    else:
                        found_syn = False
                        for pstem in parag_stems:
                            if (qstem,pstem) in syn_stems:
                                sim += 0.70
                                found_syn = True
                                break

                        if not found_syn:
                            if qword in w2v:
                                qvec = w2v[qword]
                                max_cos = -1e38
                                for pword in parag_words:
                                    if pword in w2v:
                                        pvec = w2v[pword]
                                        c = v_cosine( qvec, pvec )
                                        max_cos = max( max_cos, c )

                                sim += max_cos*0.5

    return sim / len(quest_words)

示例#2

显示文件

def filter_NEs(tokens):
    return [ TextNormalizer.crop_word(word) for word in filter( is_NE, tokens ) ]