Python CompressedSerializer.dump_stream 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.serializers

클래스/타입: CompressedSerializer

메소드/함수: dump_stream

hotexamples.com에서의 예제들: 4

Python CompressedSerializer.dump_stream - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.serializers.CompressedSerializer.dump_stream에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

CompressedSerializer(9)

load_stream(3)

_read_with_length(2)

dump_stream(2)

예제 #1

파일 보기

파일: test_serializers.py 프로젝트: Swidasya/spark-research

 def test_compressed_serializer(self):
     ser = CompressedSerializer(PickleSerializer())
     from io import BytesIO as StringIO
     io = StringIO()
     ser.dump_stream(["abc", u"123", range(5)], io)
     io.seek(0)
     self.assertEqual(["abc", u"123", range(5)], list(ser.load_stream(io)))
     ser.dump_stream(range(1000), io)
     io.seek(0)
     self.assertEqual(["abc", u"123", range(5)] + list(range(1000)),
                      list(ser.load_stream(io)))
     io.close()

예제 #2

파일 보기

파일: context.py 프로젝트: Noany/Spark-Push

 def broadcast(self, value):
     """
     Broadcast a read-only variable to the cluster, returning a
     L{Broadcast<pyspark.broadcast.Broadcast>}
     object for reading it in distributed functions. The variable will
     be sent to each cluster only once.
     """
     ser = CompressedSerializer(PickleSerializer())
     # pass large object by py4j is very slow and need much memory
     tempFile = NamedTemporaryFile(delete=False, dir=self._temp_dir)
     ser.dump_stream([value], tempFile)
     tempFile.close()
     jbroadcast = self._jvm.PythonRDD.readBroadcastFromFile(self._jsc, tempFile.name)
     return Broadcast(jbroadcast.id(), None, jbroadcast, self._pickled_broadcast_vars, tempFile.name)

예제 #3

파일 보기

파일: test_serializers.py 프로젝트: Brett-A/spark

 def test_compressed_serializer(self):
     ser = CompressedSerializer(PickleSerializer())
     try:
         from StringIO import StringIO
     except ImportError:
         from io import BytesIO as StringIO
     io = StringIO()
     ser.dump_stream(["abc", u"123", range(5)], io)
     io.seek(0)
     self.assertEqual(["abc", u"123", range(5)], list(ser.load_stream(io)))
     ser.dump_stream(range(1000), io)
     io.seek(0)
     self.assertEqual(["abc", u"123", range(5)] + list(range(1000)), list(ser.load_stream(io)))
     io.close()

예제 #4

파일 보기

 def broadcast(self, value):
     """
     Broadcast a read-only variable to the cluster, returning a
     L{Broadcast<pyspark.broadcast.Broadcast>}
     object for reading it in distributed functions. The variable will
     be sent to each cluster only once.
     """
     ser = CompressedSerializer(PickleSerializer())
     # pass large object by py4j is very slow and need much memory
     tempFile = NamedTemporaryFile(delete=False, dir=self._temp_dir)
     ser.dump_stream([value], tempFile)
     tempFile.close()
     jbroadcast = self._jvm.PythonRDD.readBroadcastFromFile(self._jsc, tempFile.name)
     return Broadcast(jbroadcast.id(), None, jbroadcast,
                      self._pickled_broadcast_vars, tempFile.name)