Python SparkContext.cassandraTable Beispiele

Programmiersprache: Python

Namespace / Paketname: pyspark

Klasse / Typ: SparkContext

Methode / Funktion: cassandraTable

Beispiele auf hotexamples.com: 3

Python SparkContext.cassandraTable - 3 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die pyspark.SparkContext.cassandraTable, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

setLogLevel(30)

setSystemProperty(30)

setCheckpointDir(30)

getConf(30)

parallelize(30)

pickleFile(30)

broadcast(30)

emptyRDD(30)

newAPIHadoopFile(30)

binaryFiles(30)

addPyFile(30)

addFile(30)

accumulator(30)

getOrCreate(30)

SparkContext(30)

sequenceFile(30)

newAPIHadoopRDD(25)

_ensure_initialized(14)

createDataFrame(11)

hadoopFile(10)

show_profiles(9)

range(8)

dump_profiles(6)

mongoRDD(6)

binaryRecords(6)

map(4)

setLocalProperty(3)

runJob(3)

flatMap(2)

cassandraTable(2)

collect(2)

close(2)

setJobGroup(2)

paralellize(1)

neo4jTable(1)

neo4jConfig(1)

parallelise(1)

BSONFileRDD(1)

parallelized(1)

parallize(1)

reduceByKey(1)

sample(1)

mongoPairRDD(1)

setMaster(1)

show_profile(1)

sortBy(1)

saveAsTextFile(1)

hadoopConfiguration(1)

mixin(1)

filter(1)

Beispiel #1

Datei anzeigen

from pyspark.mllib.fpm import FPGrowth
from pyspark import SparkContext
from cassandra.cluster import Cluster


if __name__ == "__main__":
    #First connection working only works through python3 execution
    cluster = Cluster()
    session = cluster.connect()
    results = session.execute(SELECT * FROM dev.facture)
    print(results)

    #Second protocol, also working through python3 execution only
    sc = SparkContext("spark://127.0.0.1:7077", "First App")
    rdd = sc.cassandraTable("dev", "facture")
    transactions = rdd.map(lambda x: list(set(x)))
    model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)
    result = model.freqItemsets().collect()
    for fi in result:
        print(fi)

Beispiel #2

Datei anzeigen

Datei: tweetstream_match_bids.py Projekt: davidpengsun/Insight-AdFlow


#        output=sqlContext.createDataFrame(rowRDD)
#        output.write\
#        	.format("org.apache.spark.sql.cassandra")\
#        	.options(table='records1s', keyspace='ad_flow')\
#        	.save(mode="append")

if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: kafka_wordcount.py <zk> <EventsTopic> ", file=sys.stderr)
        exit(-1)

    sc = SparkContext(appName="biddingStream")
    ssc = StreamingContext(sc, 10)
    bidprice = sc.cassandraTable("ad_flow", "bidprice")
    #    bidprice=sqlContext.read\
    #                       .format("org.apache.spark.sql.cassandra")\
    #                       .options(keyspace="ad_flow", table="bidprice")\
    #                       .load().rdd
    tmp = {}
    for item in bidprice.collect():
        tmp[item['pid']] = item['price']
    bidpriceBC = sc.broadcast(tmp)
    print(tmp)
    zkQuorum, topic1, topic2 = sys.argv[1:]
    kvs = KafkaUtils.createStream(ssc, zkQuorum, "sparkStreamingGetNewEvents",
                                  {topic1: 1})
    lines = kvs.map(lambda x: json.loads(x[1]))
    #    lines.pprint()
    #    uidVec=lines.map(lambda x: ((x['uid'], x['tick']), np.asarray([float(i) for i in x['topic']])))\

Beispiel #3

Datei anzeigen

Datei: spark_cassandra.py Projekt: CaMeLCa5e/dailysummer2015

print rdd.first().value
print rdd.first()[0]
print rdd.first()[1]
print rdd.collect()
print rdd.filter(lambda row: row.key > 1).collect()

rdd = sc.cassandraTable('test', 'kv')
rdd.saveToCassandra('test', 'kv2', [key])

rdd.saveToCassandra('test', 'kv2')

otherRdd = sc.parallelize([{"key": 3, "value": "foobar"}])

conf = SparkConf().setAppName("Spark App")
sc = SparkContext(conf=conf)
x = sc.cassandraTable("test", "kv").collect()
print x

HOME = getenv("HOME")
DSE_HOME = getenv("DSE_HOME", join(HOME, "dse-4.6.0"))
SPARK_HOME = join(DSE_HOME, "resources", "spark")

os.environ['SPARK_HOME']=SPARK_HOME

PYSPARK_DIR = join(DSE_HOME, 'resources', 'spark', 'python')
ADD_PATH = [PYSPARK_DIR] for PATH in ADD_PATH: 
	sys.path.insert(1, PATH)