Python SparkContext.TextFile Beispiele

Programmiersprache: Python

Namespace / Paketname: pyspark

Klasse / Typ: SparkContext

Methode / Funktion: TextFile

Beispiele auf hotexamples.com: 1

Python SparkContext.TextFile - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die pyspark.SparkContext.TextFile, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

setLogLevel(30)

setSystemProperty(30)

setCheckpointDir(30)

getConf(30)

parallelize(30)

pickleFile(30)

broadcast(30)

emptyRDD(30)

newAPIHadoopFile(30)

binaryFiles(30)

addPyFile(30)

addFile(30)

accumulator(30)

getOrCreate(30)

SparkContext(30)

sequenceFile(30)

newAPIHadoopRDD(25)

_ensure_initialized(14)

createDataFrame(11)

hadoopFile(10)

show_profiles(9)

range(8)

dump_profiles(6)

mongoRDD(6)

binaryRecords(6)

map(4)

setLocalProperty(3)

runJob(3)

flatMap(2)

cassandraTable(2)

collect(2)

close(2)

setJobGroup(2)

paralellize(1)

neo4jTable(1)

neo4jConfig(1)

parallelise(1)

BSONFileRDD(1)

parallelized(1)

parallize(1)

reduceByKey(1)

sample(1)

mongoPairRDD(1)

setMaster(1)

show_profile(1)

sortBy(1)

saveAsTextFile(1)

hadoopConfiguration(1)

mixin(1)

filter(1)

Beispiel #1

Datei anzeigen

def parseInput(line):
    fields = line.split('\t')
    return (int(fields[1]), (float(fields[2]), 1.0))


if __name__ == "__main__":
    # The main script - Create SparkContext
    conf = SparkConf().setappname("Worstmovies")
    sc = SparkContext(conf=conf)

    # Load up movienames based on movieID
    movieNames = loadMovies()

    # Laod up the raw DataFile u.data
    lines = sc.TextFile("hdfs:///user/maria_dev/ml-100k/u.data")

    # Convert to (movieID, (ratings, 1.0))
    ratingsData = lines.map(parseInput)

    # Reduce to (movieID, (sum of ratings, total number of ratings))
    ratingsTotalAndCount = ratingsData.reduceByKey(
        lambda movie1, movie2: (movie1[0] + movie2[0], movie1[1] + movie2[1]))

    # Reduce to (movieID, avg of ratings)
    ratingsAverage = ratingsTotalAndCount.mapValues(
        lambda totalcount: totalcount[0] / totalcount[1])

    # Sort by average - x[1] - because the second column has average
    sortedMovies = ratingsAverage.sortBy(lambda x: x[1])