Python IndexedRowMatrix.columnSimilarities 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.mllib.linalg.distributed

클래스/타입: IndexedRowMatrix

메소드/함수: columnSimilarities

hotexamples.com에서의 예제들: 2

Python IndexedRowMatrix.columnSimilarities - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.mllib.linalg.distributed.IndexedRowMatrix.columnSimilarities에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

IndexedRowMatrix(30)

multiply(12)

toBlockMatrix(4)

numRows(3)

columnSimilarities(2)

computeSVD(2)

numCols(2)

add(1)

cache(1)

예제 #1

파일 보기

파일: similar_movies.py 프로젝트: sarhakim/movie_recommendation

def compute_similarity(df):
    """
    Compute cosine
    :param df:dataframe of rating by user for movies
    :return:
    """

    # df = df.filter(df.movieId.isin([91542.0, 1.0, 5.0, 90.0, 2541.0, 1246.0, 1552.0, 4084.0, 5679.0]))

    df = df.groupBy("userId").pivot("movieId").agg(
        first(col('rating')).cast("double"))

    mat = IndexedRowMatrix(
        df.rdd.map(lambda row: IndexedRow(row[0], Vectors.dense(row[1:]))))

    cs = mat.columnSimilarities()

    path = "test"

    cs.entries.toDF().write.parquet(path)

    cs.entries.toDF().coalesce(1)\
       .write.format("com.databricks.spark.csv")\
       .option("header", "true")\
       .save("testtest.csv")

예제 #2

파일 보기

파일: similarity.py 프로젝트: dv66/Distributed-Active-Learning

from pyspark.mllib.linalg import Matrix, Matrices, DenseMatrix
from pyspark.mllib.feature import Normalizer
import numpy as np
# setup spark context and config
conf = SparkConf().setAppName("labeledPoints")
sc = SparkContext(conf=conf)
sc.setLogLevel("ERROR")

debug = Debugger()
debug.TIMESTAMP(1)
spark = SparkSession(sc)

data = sc.textFile('hdfs://node1:9000/input/vectors_3000x500.txt')
data = data.map(lambda _: np.array(_.strip().split()).astype(float))
data = data.map(lambda _: _ / np.linalg.norm(_))
irmat = data.zipWithIndex().map(lambda _: IndexedRow(_[1], _[0]))
irmat = IndexedRowMatrix(irmat)

comat = irmat.toCoordinateMatrix()
comat = comat.transpose()

irmat = comat.toIndexedRowMatrix()
simi = irmat.columnSimilarities()

#simi_list = simi.entries.collect()
#print(len(simi_list))
#print(simi_list)
print(simi.entries.take(10))

debug.TIMESTAMP(2)