Python embed_corpusの例

プログラミング言語: Python

名前空間/パッケージ名: HelperFunctions

メソッド/関数: embed_corpus

hotexamples.comのコード掲載数: 5

Python embed_corpus - 5件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのHelperFunctions.embed_corpusの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

0

ファイルを表示

ファイル: Implementations.py プロジェクト: MattGottwald/SentenceSimilarity-Backend

def DBSCAN_then_BERT_agglomerative(corpus, k=5):
    cluster_assignment = cosine_with_DBSCAN(corpus, output="list")
    clusters = cluster_by_index(cluster_assignment)
    outliers = clusters[-1]
    cluster_sentences = get_cluster_dict(cluster_assignment, corpus)
    outlier_sentences = cluster_sentences[-1]

    outliers_embeddings = embed_corpus(outlier_sentences)
    clustering_model = AgglomerativeClustering(n_clusters=k)
    clustering_model.fit(outliers_embeddings)
    outlier_assignment = clustering_model.labels_

    outlier_clusters = {}
    for i in range(k):
        outlier_clusters[i] = []

    for i in range(len(outlier_assignment)):
        cluster = outlier_assignment[i]
        index = outliers[i]
        if index == 1:
            print(i)
        outlier_clusters[cluster].append(index)

    outlier_clusters_re_indexed = re_index_clusters(outlier_clusters,
                                                    max(cluster_assignment))

    return [clusters, outlier_clusters_re_indexed]

コード例 #2

0

ファイルを表示

ファイル: Implementations.py プロジェクト: MattGottwald/SentenceSimilarity-Backend

def DBSCAN_then_BERT_SVM(corpus):
    cluster_assignment = cosine_with_DBSCAN(corpus, output="list")
    corpus_embeddings = embed_corpus(corpus)
    original_clusters = cluster_by_index(cluster_assignment)

    non_outlier_assignments = []
    non_outlier_embeddings = []
    for i in range(len(cluster_assignment)):
        if cluster_assignment[i] != -1:
            non_outlier_assignments.append(cluster_assignment[i])
            non_outlier_embeddings.append(corpus_embeddings[i])

    clf = svm.SVC()
    clf.fit(non_outlier_embeddings, non_outlier_assignments)

    max_cluster = max(cluster_assignment)
    outlier_classifications = {}
    for i in range(-1, max_cluster + 1):
        outlier_classifications[i] = []

    for i in range(len(cluster_assignment)):
        if cluster_assignment[i] == -1:
            cluster = clf.predict([corpus_embeddings[i]])[0]
            outlier_classifications[cluster].append(i)

    return [original_clusters, outlier_classifications]

コード例 #3

0

ファイルを表示

ファイル: Implementations.py プロジェクト: MattGottwald/SentenceSimilarity-Backend

def BERT_with_agglomerative(corpus, k=10):
    corpus_embeddings = embed_corpus(corpus)

    clustering_model = AgglomerativeClustering(n_clusters=k)
    clustering_model.fit(corpus_embeddings)
    cluster_assignment = clustering_model.labels_

    return [cluster_by_index(cluster_assignment)]

コード例 #4

0

ファイルを表示

ファイル: Implementations.py プロジェクト: MattGottwald/SentenceSimilarity-Backend

def BERT_with_kmeans(corpus, k=10):
    corpus_embeddings = embed_corpus(corpus)

    clustering_model = KMeans(n_clusters=k)
    clustering_model.fit(corpus_embeddings)
    cluster_assignment = clustering_model.labels_

    return [cluster_by_index(cluster_assignment)]

コード例 #5

0

ファイルを表示

ファイル: Implementations.py プロジェクト: MattGottwald/SentenceSimilarity-Backend

def DBSCAN_then_BERT_KNN(corpus, k=5):
    cluster_assignment = cosine_with_DBSCAN(corpus, output="list")
    clusters = cluster_by_index(cluster_assignment)
    outliers = clusters[-1]

    corpus_embeddings = embed_corpus(corpus)
    outlier_classifications = classify_outliers(cluster_assignment,
                                                corpus_embeddings, outliers, k)

    return [clusters, outlier_classifications]