Python DataFrame.coalesce Beispiele

Programmiersprache: Python

Namespace / Paketname: pyspark.sql.dataframe

Klasse / Typ: DataFrame

Methode / Funktion: coalesce

Beispiele auf hotexamples.com: 5

Python DataFrame.coalesce - 5 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die pyspark.sql.dataframe.DataFrame.coalesce, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

withColumn(30)

select(30)

DataFrame(24)

filter(20)

createOrReplaceTempView(16)

count(11)

drop(11)

_schema(10)

join(6)

collect(6)

show(5)

groupBy(5)

withColumnRenamed(5)

coalesce(5)

where(4)

toPandas(4)

cache(3)

repartition(3)

limit(3)

alias(3)

selectExpr(3)

unpersist(2)

toDF(2)

fillna(2)

schema(2)

printSchema(2)

persist(2)

_h2o_frame(2)

head(2)

explain(2)

foreach(1)

sortWithinPartitions(1)

take(1)

orderBy(1)

toLocalIterator(1)

transform(1)

agg(1)

mapInPandas(1)

Beispiel #1

Datei anzeigen

Datei: GeneticsPortal.py Projekt: opentargets/evidence_datasource_parsers

def write_evidence_strings(evidence_df: DataFrame, output_file: str) -> None:
    """
    Exports the table to a compressed JSON file containing the evidence strings.
    Pandas is used to export it to a single file, not a directory.
    """
    evidence_df.coalesce(1).write.format('json').mode('overwrite').option(
        'compression', 'gzip').save(output_file)
    return 0

Beispiel #2

Datei anzeigen

    def repartitionDF(self, df: DataFrame, partitions: int = 0):
        '''
            Repartition the inuput dataframe

            parms: df          -> dataframe
                   partitions  -> new partitions count. Defaulted to 0 i.e Don't partition

            logic,
                if partitions = 0 , Don't repartitions
                if partitions = -1, Repartions to the default number (NumOfExecutors * ExecutorCores * 2)
                if partitions > 0 , Repartition/coalesce to the input number
        '''
        curParts = df.rdd.getNumPartitions
        finalParts = min(curParts, partitions)

        if curParts == partitions or partitions == 0:
            finalParts = -1
        elif partitions == -1:
            finalParts = self.__dfltRDDParts
        elif partitions > 0:
            finalParts = partitions
        else:
            pass  #finalParts is pre-populated.

        self.log("Current Partitions: %d , Requested: %d,  Final: %d " %
                 (curParts, partitions, finalParts))

        if finalParts != -1:
            return df
        elif curParts > finalParts:
            return df.coalesce(finalParts)
        else:
            return df.repartition(finalParts)

Beispiel #3

Datei anzeigen

 def write(self, feature_set: FeatureSet, dataframe: DataFrame,
           spark_client: SparkClient) -> Any:
     """Write output to single file CSV dataset."""
     path = f"data/datasets/{feature_set.name}"
     spark_client.write_dataframe(
         dataframe=dataframe.coalesce(1),
         format_="csv",
         mode="overwrite",
         path=path,
         header=True,
     )

Beispiel #4

Datei anzeigen

Datei: class_pyspark.py Projekt: datyrlab/python-pyspark-framework

 def writeFile(df:DataFrame, filepath:str, filetype:str) -> None:
     if isinstance(df, DataFrame):
         getattr(df.coalesce(1).write,filetype)(filepath, mode="overwrite", header="true") # csv, 1 file, with header

Beispiel #5

Datei anzeigen

Datei: fg.py Projekt: saswata-dutta/feature-store

def _save_parquet_local(spark_df: Spark_df, fpath: str) -> Sequence[str]:
    spark_df.coalesce(1).write.parquet(fpath)
    return glob.glob(f"{fpath}/*.parquet")