Python SparkHolder 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: intake_spark.base

클래스/타입: SparkHolder

hotexamples.com에서의 예제들: 5

Python SparkHolder - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 intake_spark.base.SparkHolder에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

SparkHolder(5)

setup(5)

자주 사용되는 메소드들

SparkHolder (5)

setup (5)

예제 #1

파일 보기

    def to_spark(self):
        """Pass URL to spark to load as a DataFrame

        Note that this requires ``org.apache.spark.sql.avro.AvroFileFormat``
        to be installed in your spark classes.

        This feature is experimental.
        """
        from intake_spark.base import SparkHolder
        sh = SparkHolder(True,
                         [['read'], ['format', ["com.databricks.spark.avro"]],
                          ['load', [self._urlpath]]], {})
        return sh.setup()

예제 #2

파일 보기

파일: source.py 프로젝트: zillow/intake-parquet

    def to_spark(self):
        """Produce Spark DataFrame equivalent

        This will ignore all arguments except the urlpath, which will be
        directly interpreted by Spark. If you need to configure the storage,
        that must be done on the spark side.

        This method requires intake-spark. See its documentation for how to
        set up a spark Session.
        """
        from intake_spark.base import SparkHolder
        args = [['read'], ['parquet', [self._urlpath]]]
        sh = SparkHolder(True, args, {})
        return sh.setup()

예제 #3

파일 보기

파일: test_spark.py 프로젝트: yuhonghong7035/intake-spark

def test_cat():
    import pyspark
    h = SparkHolder(True, [('catalog', )], {})
    h.setup()  # create spark session early
    session = h.session[0]
    d = session.createDataFrame(df)
    sql = pyspark.HiveContext(session.sparkContext)
    sql.registerDataFrameAsTable(d, 'temp')

    cat = SparkTablesCatalog()
    assert 'temp' in list(cat)
    s = cat.temp()
    assert isinstance(s, SparkDataFrame)
    out = s.read()
    assert out.astype(df.dtypes).equals(df)

예제 #4

파일 보기

 def to_spark(self):
     from intake_spark.base import SparkHolder
     h = SparkHolder(False, [('textFile', (self._urlpath, ))], {})
     return h.setup()

예제 #5

파일 보기

 def to_spark(self):
     from intake_spark.base import SparkHolder
     h = SparkHolder(True, [('read', ), ('format', ("csv", )),
                            ('option', ("header", "true")),
                            ('load', (self.urlpath, ))], {})
     return h.setup()