Python PickleSerializer.dumps 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.serializers

클래스/타입: PickleSerializer

메소드/함수: dumps

hotexamples.com에서의 예제들: 13

Python PickleSerializer.dumps - 13개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.serializers.PickleSerializer.dumps에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PickleSerializer(18)

dumps(8)

loads(6)

예제 #1

파일 보기

파일: test_linalg.py 프로젝트: Swidasya/spark-research

 def _test_serialize(self, v):
     ser = PickleSerializer()
     self.assertEqual(v, ser.loads(ser.dumps(v)))
     jvec = self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.loads(bytearray(ser.dumps(v)))
     nv = ser.loads(bytes(self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.dumps(jvec)))
     self.assertEqual(v, nv)
     vs = [v] * 100
     jvecs = self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.loads(bytearray(ser.dumps(vs)))
     nvs = ser.loads(bytes(self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.dumps(jvecs)))
     self.assertEqual(vs, nvs)

예제 #2

파일 보기

파일: test_linalg.py 프로젝트: apache/spark

 def _test_serialize(self, v):
     ser = PickleSerializer()
     self.assertEqual(v, ser.loads(ser.dumps(v)))
     jvec = self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.loads(bytearray(ser.dumps(v)))
     nv = ser.loads(bytes(self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.dumps(jvec)))
     self.assertEqual(v, nv)
     vs = [v] * 100
     jvecs = self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.loads(bytearray(ser.dumps(vs)))
     nvs = ser.loads(bytes(self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.dumps(jvecs)))
     self.assertEqual(vs, nvs)

예제 #3

파일 보기

파일: tree.py 프로젝트: DennisMcWherter/SparkResourceScheduler

    def predict(self, x):
        """
        Predict the label of one or more examples.

        :param x:  Data point (feature vector),
                   or an RDD of data points (feature vectors).
        """
        SerDe = self._sc._jvm.SerDe
        ser = PickleSerializer()
        if isinstance(x, RDD):
            # Bulk prediction
            first = x.take(1)
            if not first:
                return self._sc.parallelize([])
            if not isinstance(first[0], Vector):
                x = x.map(_convert_to_vector)
            jPred = self._java_model.predict(x._to_java_object_rdd()).toJavaRDD()
            jpyrdd = self._sc._jvm.PythonRDD.javaToPython(jPred)
            return RDD(jpyrdd, self._sc, BatchedSerializer(ser, 1024))

        else:
            # Assume x is a single data point.
            bytes = bytearray(ser.dumps(_convert_to_vector(x)))
            vec = self._sc._jvm.SerDe.loads(bytes)
            return self._java_model.predict(vec)

예제 #4

파일 보기

파일: test_algorithms.py 프로젝트: Ignalina/spark311

 def test_als_ratings_id_long_error(self):
     ser = PickleSerializer()
     r = Rating(1205640308657491975, 50233468418, 1.0)
     # rating user id exceeds max int value, should fail when pickled
     self.assertRaises(
         Py4JJavaError,
         self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.loads,
         bytearray(ser.dumps(r)))

예제 #5

파일 보기

파일: test_algorithms.py 프로젝트: zzvara/spark-dynamic

 def test_als_ratings_serialize(self):
     ser = PickleSerializer()
     r = Rating(7, 1123, 3.14)
     jr = self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.loads(bytearray(ser.dumps(r)))
     nr = ser.loads(bytes(self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.dumps(jr)))
     self.assertEqual(r.user, nr.user)
     self.assertEqual(r.product, nr.product)
     self.assertAlmostEqual(r.rating, nr.rating, 2)

예제 #6

파일 보기

파일: context.py 프로젝트: iAmGhost/spark

 def broadcast(self, value):
     """
     Broadcast a read-only variable to the cluster, returning a
     L{Broadcast<pyspark.broadcast.Broadcast>}
     object for reading it in distributed functions. The variable will be
     sent to each cluster only once.
     """
     pickleSer = PickleSerializer()
     pickled = pickleSer.dumps(value)
     jbroadcast = self._jsc.broadcast(bytearray(pickled))
     return Broadcast(jbroadcast.id(), value, jbroadcast, self._pickled_broadcast_vars)

예제 #7

파일 보기

파일: context.py 프로젝트: mkolod/incubator-spark

 def broadcast(self, value):
     """
     Broadcast a read-only variable to the cluster, returning a C{Broadcast}
     object for reading it in distributed functions. The variable will be
     sent to each cluster only once.
     """
     pickleSer = PickleSerializer()
     pickled = pickleSer.dumps(value)
     jbroadcast = self._jsc.broadcast(bytearray(pickled))
     return Broadcast(jbroadcast.id(), value, jbroadcast,
                      self._pickled_broadcast_vars)

예제 #8

파일 보기

파일: regression.py 프로젝트: 312268112/spark

def _regression_train_wrapper(sc, train_func, modelClass, data, initial_weights):
    initial_weights = initial_weights or [0.0] * len(data.first().features)
    ser = PickleSerializer()
    initial_bytes = bytearray(ser.dumps(_convert_to_vector(initial_weights)))
    # use AutoBatchedSerializer before cache to reduce the memory
    # overhead in JVM
    cached = data._reserialize(AutoBatchedSerializer(ser)).cache()
    ans = train_func(cached._to_java_object_rdd(), initial_bytes)
    assert len(ans) == 2, "JVM call result had unexpected length"
    weights = ser.loads(str(ans[0]))
    return modelClass(weights, ans[1])

예제 #9

파일 보기

def _regression_train_wrapper(sc, train_func, modelClass, data, initial_weights):
    initial_weights = initial_weights or [0.0] * len(data.first().features)
    ser = PickleSerializer()
    initial_bytes = bytearray(ser.dumps(_convert_to_vector(initial_weights)))
    # use AutoBatchedSerializer before cache to reduce the memory
    # overhead in JVM
    cached = data._reserialize(AutoBatchedSerializer(ser)).cache()
    ans = train_func(_to_java_object_rdd(cached), initial_bytes)
    assert len(ans) == 2, "JVM call result had unexpected length"
    weights = ser.loads(str(ans[0]))
    return modelClass(weights, ans[1])

예제 #10

파일 보기

    def findSynonyms(self, x, num):
        """
        :param x: a word or a vector representation of word
        :param num: number of synonyms to find
        :return: array of (word, cosineSimilarity)

        Find synonyms of a word

        Note: local use only
        """
        # TODO: make findSynonyms usable in RDD operations from python side
        ser = PickleSerializer()
        if type(x) == str:
            jlist = self._java_model.findSynonyms(x, num)
        else:
            bytes = bytearray(ser.dumps(_convert_to_vector(x)))
            vec = self._sc._jvm.SerDe.loads(bytes)
            jlist = self._java_model.findSynonyms(vec, num)
        words, similarity = ser.loads(str(self._sc._jvm.SerDe.dumps(jlist)))
        return zip(words, similarity)

예제 #11

파일 보기

파일: feature.py 프로젝트: Ludwsam/spark

    def findSynonyms(self, x, num):
        """
        :param x: a word or a vector representation of word
        :param num: number of synonyms to find
        :return: array of (word, cosineSimilarity)

        Find synonyms of a word

        Note: local use only
        """
        # TODO: make findSynonyms usable in RDD operations from python side
        ser = PickleSerializer()
        if type(x) == str:
            jlist = self._java_model.findSynonyms(x, num)
        else:
            bytes = bytearray(ser.dumps(_convert_to_vector(x)))
            vec = self._sc._jvm.SerDe.loads(bytes)
            jlist = self._java_model.findSynonyms(vec, num)
        words, similarity = ser.loads(str(self._sc._jvm.SerDe.dumps(jlist)))
        return zip(words, similarity)

예제 #12

파일 보기

lrModel = lr.fit(spark_df_transformed)
lrModel.coefficientMatrix


#####################################
### Save and load model using PySpark
#####################################
lrModel.save('D:/lr-spark.dat')
from pyspark.ml.classification import LogisticRegressionModel
lr_loded = LogisticRegressionModel.load('D:/lr-spark.dat')

###############
### Serializers
###############
from pyspark.serializers import PickleSerializer
PickleSerializer.dumps(lrModel, 'D:/lr-spark-pickle.dat')
#######################################
### Column names in the spark DataFrame
#######################################
spark_df_transformed.columns
spark_df_transformed.printSchema()

#################################
### Schema of the spark DataFrame
#################################
spark_df_transformed.printSchema()
spark_df_transformed.stat
feat_vec = spark_df_transformed.select('features')
feat_vec.printSchema()
feat_vec.take(1)

예제 #13

파일 보기

파일: test_algorithms.py 프로젝트: Brett-A/spark

 def test_als_ratings_id_long_error(self):
     ser = PickleSerializer()
     r = Rating(1205640308657491975, 50233468418, 1.0)
     # rating user id exceeds max int value, should fail when pickled
     self.assertRaises(Py4JJavaError, self.sc._jvm.org.apache.spark.mllib.api.python.SerDe.loads,
                       bytearray(ser.dumps(r)))