Python CassandraSparkContext.emptyRDD 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark_cassandra

메소드/함수: emptyRDD

hotexamples.com에서의 예제들: 1

Python CassandraSparkContext.emptyRDD - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark_cassandra.CassandraSparkContext.emptyRDD에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

cassandraTable(28)

CassandraSparkContext(18)

parallelize(12)

setLogLevel(5)

textFile(4)

stop(3)

close(1)

emptyRDD(1)

getOrCreate(1)

setCheckpointDir(1)

예제 #1

파일 보기

파일: cassandra_mongo_short.py 프로젝트: jingxian0320/spark-learning

    col_item_id = 3

    num_to_recomm_per_user = 10
    num_to_recomm_per_item = 10
    
    
    conf = SparkConf().setAppName("PysparkCollaborativeFiltering").set("spark.cassandra.connection.host", spark_cassandra_connection_host)
    sc = CassandraSparkContext(conf=conf)
    sc.setCheckpointDir('checkpoint/')
    data = sc.cassandraTable("mykeyspace", "transactions",row_format=1).collect() # row_format: tuple
    # (id, tenant_id, user_id, item_id)
    tenant_ids = set(list(map(lambda x:x[col_tenant_id],data)))
    data_rdd = sc.parallelize(data)
    # data_rdd = sc.parallelize(data).map(list)
    
    all_results_per_user = sc.emptyRDD()
    all_results_per_item = sc.emptyRDD()
    
    for t_id in tenant_ids:
        print("\nComputing recommendation for tenant {}...\n".format(t_id))
        per_tenant_rdd = data_rdd.filter(
            lambda x: x[col_tenant_id] == t_id).map(
            lambda l: ((l[col_user_id],l[col_item_id]),1.0)).reduceByKey(
            lambda x,y: x + y).map(
            lambda x: (x[0][0],x[0][1],x[1]))
        recomm_per_user,recomm_per_item = recomm_cf.TrainAndComputeRecommendation(sc, per_tenant_rdd,
                                                                        num_to_recomm_per_user,
                                                                        num_to_recomm_per_item)

        formatted_rdd_per_user = recomm_per_user.map(lambda row: ((t_id,row[0]),row[1]))
        all_results_per_user = all_results_per_user.union(formatted_rdd_per_user)