Python multijoin 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: sparkly.functions

메소드/함수: multijoin

hotexamples.com에서의 예제들: 4

Python multijoin - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 sparkly.functions.multijoin에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: test_functions.py 프로젝트: Mallik-G/sparkly

    def test_coalescing_heavy_type_mismatch(self):
        first_df = self.spark.createDataFrame(
            data=[(1, None), (2, 'hi'), (3, None), (4, 'may')],
            schema=T.StructType([
                T.StructField('id', T.IntegerType()),
                T.StructField('value', T.StringType()),
            ]),
        )
        second_df = self.spark.createDataFrame(
            data=[(2, [
                2,
            ]), (3, [
                3,
            ]), (4, None)],
            schema=T.StructType([
                T.StructField('id', T.IntegerType()),
                T.StructField('value', T.ArrayType(T.IntegerType())),
            ]),
        )

        with self.assertRaises(U.AnalysisException):
            SF.multijoin([first_df, second_df],
                         on='id',
                         how='inner',
                         coalesce=['value'])

예제 #2

파일 보기

파일: test_functions.py 프로젝트: Mallik-G/sparkly

    def test_coalescing(self):
        first_df = self.spark.createDataFrame(
            data=[(1, None), (2, 'hi'), (3, None), (4, 'may')],
            schema=T.StructType([
                T.StructField('id', T.IntegerType()),
                T.StructField('value', T.StringType()),
            ]),
        )
        second_df = self.spark.createDataFrame(
            data=[(2, 'hey'), (3, 'you'), (4, None)],
            schema=T.StructType([
                T.StructField('id', T.IntegerType()),
                T.StructField('value', T.StringType()),
            ]),
        )

        joined_df = SF.multijoin([first_df, second_df],
                                 on='id',
                                 how='inner',
                                 coalesce=['value'])

        self.assertDataFrameEqual(
            joined_df,
            [{
                'id': 2,
                'value': 'hi'
            }, {
                'id': 3,
                'value': 'you'
            }, {
                'id': 4,
                'value': 'may'
            }],
        )

예제 #3

파일 보기

파일: test_functions.py 프로젝트: luzbetak/sparkly

    def test_outer_join(self):
        first_df = self.spark.createDataFrame(
            data=[(1, ), (2, ), (3, )],
            schema=T.StructType([T.StructField('id', T.IntegerType())]),
        )
        second_df = self.spark.createDataFrame(
            data=[(2, ), (3, ), (4, )],
            schema=T.StructType([T.StructField('id', T.IntegerType())]),
        )
        third_df = self.spark.createDataFrame(
            data=[(3, ), (4, ), (5, )],
            schema=T.StructType([T.StructField('id', T.IntegerType())]),
        )

        joined_df = SF.multijoin([first_df, second_df, third_df], on='id', how='outer')

        self.assertDataFrameEqual(joined_df, [{'id': i} for i in [1, 2, 3, 4, 5]])

예제 #4

파일 보기

파일: test_functions.py 프로젝트: Mallik-G/sparkly

 def test_no_dataframes_in_the_input(self):
     joined_df = SF.multijoin([])
     self.assertIsNone(joined_df)