Esempi in Python per HistoricalFeatureStoreWriter._create_partitions

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: butterfree.load.writers

Classe/tipologia: HistoricalFeatureStoreWriter

Metodo/funzione: _create_partitions

Esempi su hotexamples.com: 2

HistoricalFeatureStoreWriter._create_partitions in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per butterfree.load.writers.HistoricalFeatureStoreWriter._create_partitions, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

HistoricalFeatureStoreWriter(28)

write(5)

validate(3)

_create_partitions(2)

Esempio n. 1

Mostra file

File: test_historical_feature_store_writer.py Progetto: zuston/butterfree

    def test__create_partitions(self, spark_session, spark_context):
        # arrange
        start = datetime.datetime(year=1970, month=1, day=1)
        end = datetime.datetime(year=2020, month=12, day=31)
        random_dates = [
            (
                lambda: start + datetime.
                timedelta(seconds=random.randint(  # noqa: S311
                    0, int(
                        (end - start).total_seconds()))))().date().isoformat()
            for _ in range(10000)
        ]
        data = [{"timestamp": date} for date in random_dates]
        input_df = spark_session.read.json(spark_context.parallelize(data, 1),
                                           schema="timestamp timestamp")

        writer = HistoricalFeatureStoreWriter()

        # act
        result_df = writer._create_partitions(input_df)

        # assert
        assert result_df.select("year", "month",
                                "day").distinct().count() == len(
                                    set(random_dates))

Esempio n. 2

Mostra file

File: test_historical_feature_store_writer.py Progetto: zuston/butterfree

    def test__repartition_df(self, spark_session, spark_context):
        # arrange
        start = datetime.datetime(year=1970, month=1, day=1)
        end = datetime.datetime(year=2020, month=12, day=31)
        random_dates = [
            (
                lambda: start + datetime.
                timedelta(seconds=random.randint(  # noqa: S311
                    0, int(
                        (end - start).total_seconds()))))().date().isoformat()
            for _ in range(10000)
        ]
        data = [{"timestamp": date} for date in random_dates]
        input_df = spark_session.read.json(spark_context.parallelize(data, 1),
                                           schema="timestamp timestamp")

        writer = HistoricalFeatureStoreWriter()

        # act
        result_df = writer._create_partitions(input_df)

        # assert
        # Only one partition id, meaning data is not partitioned
        assert input_df.select(spark_partition_id()).distinct().count() == 1
        # Desired number of partitions
        assert result_df.select(spark_partition_id()).distinct().count() == 200