Python SparkContext.cassandraTable Exemples

Langage de programmation: Python

Espace de nommage/Pack: pyspark

Class/Type: SparkContext

Méthode/Fonction: cassandraTable

Exemples au hotexamples.com: 3

Python SparkContext.cassandraTable - 3 exemples trouvés. Ce sont les exemples réels les mieux notés de pyspark.SparkContext.cassandraTable extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

setLogLevel(30)

setSystemProperty(30)

setCheckpointDir(30)

getConf(30)

parallelize(30)

pickleFile(30)

broadcast(30)

emptyRDD(30)

newAPIHadoopFile(30)

binaryFiles(30)

addPyFile(30)

addFile(30)

accumulator(30)

getOrCreate(30)

SparkContext(30)

sequenceFile(30)

newAPIHadoopRDD(25)

_ensure_initialized(14)

createDataFrame(11)

hadoopFile(10)

show_profiles(9)

range(8)

dump_profiles(6)

mongoRDD(6)

binaryRecords(6)

map(4)

setLocalProperty(3)

runJob(3)

flatMap(2)

cassandraTable(2)

collect(2)

close(2)

setJobGroup(2)

paralellize(1)

neo4jTable(1)

neo4jConfig(1)

parallelise(1)

BSONFileRDD(1)

parallelized(1)

parallize(1)

reduceByKey(1)

sample(1)

mongoPairRDD(1)

setMaster(1)

show_profile(1)

sortBy(1)

saveAsTextFile(1)

hadoopConfiguration(1)

mixin(1)

filter(1)

Méthodes fréquemment utilisées

setLogLevel (30)

setSystemProperty (30)

setCheckpointDir (30)

getConf (30)

parallelize (30)

pickleFile (30)

broadcast (30)

emptyRDD (30)

newAPIHadoopFile (30)

binaryFiles (30)

Méthodes fréquemment utilisées

addPyFile (30)

addFile (30)

accumulator (30)

getOrCreate (30)

SparkContext (30)

sequenceFile (30)

newAPIHadoopRDD (25)

_ensure_initialized (14)

createDataFrame (11)

hadoopFile (10)

show_profiles (9)

range (8)

dump_profiles (6)

mongoRDD (6)

binaryRecords (6)

map (4)

setLocalProperty (3)

runJob (3)

flatMap (2)

cassandraTable (2)

Méthodes fréquemment utilisées

show_profiles (9)

range (8)

dump_profiles (6)

mongoRDD (6)

binaryRecords (6)

map (4)

setLocalProperty (3)

runJob (3)

flatMap (2)

cassandraTable (2)

collect (2)

close (2)

setJobGroup (2)

paralellize (1)

neo4jTable (1)

neo4jConfig (1)

parallelise (1)

BSONFileRDD (1)

parallelized (1)

parallize (1)

reduceByKey (1)

sample (1)

mongoPairRDD (1)

setMaster (1)

show_profile (1)

sortBy (1)

saveAsTextFile (1)

hadoopConfiguration (1)

mixin (1)

filter (1)

Méthodes fréquemment utilisées

collect (2)

close (2)

setJobGroup (2)

paralellize (1)

neo4jTable (1)

neo4jConfig (1)

parallelise (1)

BSONFileRDD (1)

parallelized (1)

parallize (1)

reduceByKey (1)

sample (1)

mongoPairRDD (1)

setMaster (1)

show_profile (1)

sortBy (1)

saveAsTextFile (1)

hadoopConfiguration (1)

mixin (1)

filter (1)

TextFile (1)

__init__ (1)

__name__ (1)

awaitTermination (1)

braodcast (1)

broacast (1)

cancelAllJobs (1)

cancelJobGroup (1)

count (1)

countByKey (1)

countByValue (1)

first (1)

mapPartitionsWithIndex (1)

fitsData (1)

fitsFiles (1)

getLocalProperty (1)

getNumPartitions (1)

groupBy (1)

groupByKey (1)

SequenceFile (1)

Exemple #1

0

Afficher le fichier

from pyspark.mllib.fpm import FPGrowth from pyspark import SparkContext from cassandra.cluster import Cluster if __name__ == "__main__": #First connection working only works through python3 execution cluster = Cluster() session = cluster.connect() results = session.execute(SELECT * FROM dev.facture) print(results) #Second protocol, also working through python3 execution only sc = SparkContext("spark://127.0.0.1:7077", "First App") rdd = sc.cassandraTable("dev", "facture") transactions = rdd.map(lambda x: list(set(x))) model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10) result = model.freqItemsets().collect() for fi in result: print(fi)

Exemple #2

0

Afficher le fichier

Fichier : tweetstream_match_bids.py Projet : davidpengsun/Insight-AdFlow

# output=sqlContext.createDataFrame(rowRDD) # output.write\ # .format("org.apache.spark.sql.cassandra")\ # .options(table='records1s', keyspace='ad_flow')\ # .save(mode="append") if __name__ == "__main__": if len(sys.argv) != 3: print("Usage: kafka_wordcount.py <zk> <EventsTopic> ", file=sys.stderr) exit(-1) sc = SparkContext(appName="biddingStream") ssc = StreamingContext(sc, 10) bidprice = sc.cassandraTable("ad_flow", "bidprice") # bidprice=sqlContext.read\ # .format("org.apache.spark.sql.cassandra")\ # .options(keyspace="ad_flow", table="bidprice")\ # .load().rdd tmp = {} for item in bidprice.collect(): tmp[item['pid']] = item['price'] bidpriceBC = sc.broadcast(tmp) print(tmp) zkQuorum, topic1, topic2 = sys.argv[1:] kvs = KafkaUtils.createStream(ssc, zkQuorum, "sparkStreamingGetNewEvents", {topic1: 1}) lines = kvs.map(lambda x: json.loads(x[1])) # lines.pprint() # uidVec=lines.map(lambda x: ((x['uid'], x['tick']), np.asarray([float(i) for i in x['topic']])))\

Exemple #3

0

Afficher le fichier

Fichier : spark_cassandra.py Projet : CaMeLCa5e/dailysummer2015

print rdd.first().value print rdd.first()[0] print rdd.first()[1] print rdd.collect() print rdd.filter(lambda row: row.key > 1).collect() rdd = sc.cassandraTable('test', 'kv') rdd.saveToCassandra('test', 'kv2', [key]) rdd.saveToCassandra('test', 'kv2') otherRdd = sc.parallelize([{"key": 3, "value": "foobar"}]) conf = SparkConf().setAppName("Spark App") sc = SparkContext(conf=conf) x = sc.cassandraTable("test", "kv").collect() print x HOME = getenv("HOME") DSE_HOME = getenv("DSE_HOME", join(HOME, "dse-4.6.0")) SPARK_HOME = join(DSE_HOME, "resources", "spark") os.environ['SPARK_HOME']=SPARK_HOME PYSPARK_DIR = join(DSE_HOME, 'resources', 'spark', 'python') ADD_PATH = [PYSPARK_DIR] for PATH in ADD_PATH: sys.path.insert(1, PATH)