Python Client.publish_dataset Beispiele

Programmiersprache: Python

Namespace / Paketname: dask.distributed

Klasse / Typ: Client

Methode / Funktion: publish_dataset

Beispiele auf hotexamples.com: 3

Python Client.publish_dataset - 3 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die dask.distributed.Client.publish_dataset, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Client(30)

gather(30)

run(30)

map(30)

scatter(30)

submit(30)

shutdown(30)

close(30)

compute(30)

persist(27)

scheduler_info(24)

restart(23)

upload_file(21)

run_on_scheduler(17)

wait_for_workers(17)

ncores(16)

has_what(13)

get(10)

get_versions(9)

register_worker_callbacks(8)

register_worker_plugin(8)

cancel(7)

nthreads(6)

processing(5)

sync(5)

current(4)

who_has(4)

publish_dataset(3)

get_task_stream(3)

recreate_error_locally(2)

get_dataset(2)

write_scheduler_file(2)

rebalance(2)

retire_workers(2)

_get_scheduler_info(1)

get_registered_workers(1)

as_current(1)

futures_of(1)

get_collection(1)

tempdir_object(1)

start_ipython_workers(1)

start_workers(1)

profile(1)

replicate(1)

set_collection(1)

scheduler_status(1)

get_worker_logs(1)

list_datasets(1)

set_metadata(1)

Beispiel #1

Datei anzeigen

Datei: parquet_to_dask.py Projekt: zilbermanor/functions

def parquet_to_dask(context: MLClientCtx,
                    parquet_url: Union[DataItem, str, Path, IO[AnyStr]],
                    inc_cols: Optional[List[str]] = None,
                    index_cols: Optional[List[str]] = None,
                    shards: int = 4,
                    threads_per: int = 4,
                    processes: bool = False,
                    memory_limit: str = '2GB',
                    persist: bool = True,
                    dask_key: str = 'my_dask_dataframe',
                    target_path: str = '') -> None:
    """Load parquet dataset into dask cluster
    
    If no cluster is found loads a new one and persist the data to it. It
    shouold not be necessary to create a new cluster when the function
    is run as a 'dask' job.
    
    :param context:         the function context
    :param parquet_url:     url of the parquet file or partitioned dataset as either
                            artifact DataItem, string, or path object (see pandas read_csv)
    :param inc_cols:        include only these columns (very fast)
    :param index_cols:      list of index column names (can be a long-running process)
    :param shards:          number of workers to launch
    :param threads_per:     number of threads per worker
    :param processes:       
    """
    if hasattr(context, 'dask_client'):
        context.logger.info('found cluster...')
        dask_client = context.dask_client
    else:
        context.logger.info('starting new cluster...')
        cluster = LocalCluster(n_workers=shards,
                               threads_per_worker=threads_per,
                               processes=processes,
                               memory_limit=memory_limit)
        dask_client = Client(cluster)

    context.logger.info(dask_client)

    df = dd.read_parquet(parquet_url)

    if persist and context:
        df = dask_client.persist(df)
        dask_client.publish_dataset(dask_key=df)
        context.dask_client = dask_client

        # share the scheduler
        filepath = os.path.join(target_path, 'scheduler.json')
        dask_client.write_scheduler_file(filepath)
        context.log_artifact('scheduler', target_path=filepath)

        print(df.head())

Beispiel #2

Datei anzeigen

import os
import numpy as np
import pandas as pd
import cudf
import dask_cudf
from dask.distributed import Client

np.random.seed(12)
df = cudf.DataFrame([('a', list(range(20))),
    ('b', list(reversed(range(20)))),
    ('c', list(range(20)))])
print(df)

ddf = dask_cudf.from_cudf(df, npartitions=2) 
print(ddf.persist())

client = Client("127.0.0.1:8487")
client.publish_dataset(shared_dataset1=ddf)
print(client.list_datasets())

Beispiel #3

Datei anzeigen

Datei: dask_prop_load_direct.py Projekt: saulfrank/dask-demo

# df = dd.read_csv('s3://dask-data/nyc-taxi/2015/*.csv',
#                  parse_dates=['tpep_pickup_datetime', 'tpep_dropoff_datetime'],
#                  storage_options={'anon': True})

print('read file')
# https://www.gov.uk/guidance/about-the-price-paid-data#download-options
column_names = [
    'id', 'price', 'transfer_date', 'postcode', 'property_type', 'old_new',
    'duration', 'primary_address_obj', 'secondary_address_obj', 'street',
    'locality', 'city_town', 'district', 'county', 'ppd_cat', 'record_stat'
]

### dont set an index for saving parquet format
# df = dd.read_csv('./propdata/pp-complete.csv', header=None, names=column_names).set_index('id')

df = dd.read_csv('./propdata/pp-complete.csv', header=None, names=column_names)

# print(df.head())

print('persist dataframe')
df = client.persist(df)
#
print('publish dataframe')
df = client.publish_dataset(prop_paid=df)

# print('run calc')
# x = client.submit(lambda a: a.shape, df).result()
#
# # print(df)
# print(x)