Python Vectors.squared_distanceの例

プログラミング言語: Python

名前空間/パッケージ名: pyspark.ml.linalg

クラス/型: Vectors

メソッド/関数: squared_distance

hotexamples.comのコード掲載数: 3

Python Vectors.squared_distance - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpyspark.ml.linalg.Vectors.squared_distanceの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

dense(30)

sparse(30)

squared_distance(3)

_equals(1)

norm(1)

コード例 #1

ファイルを表示

def kmeans(features, num_clusters):
    """Does clustering on the features dataset using KMeans clustering.

    Params:
    - features (pyspark.sql.DataFrame): The data frame containing the features to be used for clustering
    - num_clusters (int): The number of clusters to be used

    Returns:
    - clustered (pyspark.sql.DataFrame): The data frame, with the predicted clusters in a 'cluster' column
    """
    kmeans = KMeans(k=num_clusters,
                    featuresCol='features',
                    predictionCol='cluster')
    kmeans_model = kmeans.fit(features)
    clustered = kmeans_model.transform(features)
    clustered.show()
    cluster_centers = kmeans_model.clusterCenters()
    clustered = clustered.rdd.map(
        lambda row: Row(distance=Vectors.squared_distance(
            cluster_centers[row['cluster']], row['features']),
                        **row.asDict())).toDF()
    clustered.show()
    print("=====Clustering Results=====")
    print("Clustering cost = ", kmeans_model.computeCost(features))
    print("Cluster sizes = ", kmeans_model.summary.clusterSizes)
    return clustered

コード例 #2

ファイルを表示

ファイル: distance_service.py プロジェクト: werit/galytix_assignment

 def calculate_distance(self, input_df):
     squared_distance = udf(
         lambda vect1, vect2: float(Vectors.squared_distance(vect1, vect2)), FloatType())
     ad = input_df.alias('df1').join(
         input_df.alias('df2'), col('df1.sentence_id') != col('df2.sentence_id'), 'inner')
     ad2 = ad.select(col('df1.sentence_id').alias('sentence_id'),
                     col('df2.sentence_id').alias('sentence_id_match'),
                     col('df1.sentence_vector').alias('sentence_vector'),
                     col('df2.sentence_vector').alias(
                         'sentence_vector_match')
                     )
     return ad2.withColumn('distance', squared_distance(
         col('sentence_vector'), col('sentence_vector_match')))

コード例 #3

ファイルを表示

ファイル: structuredRf.py プロジェクト: acallejasz/TFG

def distToCentroid(datapt, centroid):
    return math.sqrt(Vectors.squared_distance(datapt, centroid))