Python Block示例

编程语言: Python

命名空间/包名称: ray.experimental.data.block

类/类型: Block

hotexamples.com的示例: 14

Python Block - 已找到14个示例。这些是从开源项目中提取的最受好评的ray.experimental.data.block.Block现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

to_pandas(5)

num_rows(4)

iter_rows(3)

slice(3)

to_arrow_table(2)

builder(1)

示例#1

显示文件

文件： dataset.py 项目： DmitriGekhtman/ray

 def transform(block: Block) -> Block:
     block = BlockAccessor.for_block(block)
     builder = block.builder()
     for row in block.iter_rows():
         if fn(row):
             builder.add(row)
     return builder.build()

示例#2

显示文件

文件： dataset.py 项目： DmitriGekhtman/ray

 def csv_write(write_path: str, block: Block):
     block = BlockAccessor.for_block(block)
     logger.debug(
         f"Writing {block.num_rows()} records to {write_path}.")
     block.to_pandas().to_csv(write_path,
                              mode="a",
                              header=True,
                              index=False)

示例#3

显示文件

 def format_batch(batch: Block, format: str) -> BatchType:
     if batch_format == "pandas":
         batch = BlockAccessor.for_block(batch)
         return batch.to_pandas()
     elif batch_format == "pyarrow":
         batch = BlockAccessor.for_block(batch)
         return batch.to_arrow_table()
     elif batch_format == "_blocks":
         return batch
     else:
         raise ValueError(
             f"The given batch format: {batch_format} "
             f"is invalid. Supported batch type: {BatchType}")

示例#4

显示文件

 def shuffle_map(block: Block) -> List[Block]:
     block = BlockAccessor.for_block(block)
     slice_sz = max(1, math.ceil(block.num_rows() / output_num_blocks))
     slices = []
     for i in range(output_num_blocks):
         slices.append(
             block.slice(i * slice_sz, (i + 1) * slice_sz, copy=True))
     num_rows = sum(BlockAccessor.for_block(s).num_rows() for s in slices)
     assert num_rows == block.num_rows(), (num_rows, block.num_rows())
     # Needed to handle num_returns=1 edge case in Ray API.
     if len(slices) == 1:
         return slices[0]
     else:
         return slices

示例#5

显示文件

文件： dataset.py 项目： DmitriGekhtman/ray

 def transform(block: Block) -> Block:
     block = BlockAccessor.for_block(block)
     builder = DelegatingArrowBlockBuilder()
     for row in block.iter_rows():
         for r2 in fn(row):
             builder.add(r2)
     return builder.build()

示例#6

显示文件

 def block_to_df(block: Block):
     block = BlockAccessor.for_block(block)
     if isinstance(block, (ray.ObjectRef, ClientObjectRef)):
         raise ValueError(
             "Dataset.to_dask() must be used with Dask-on-Ray, please "
             "set the Dask scheduler to ray_dask_get (located in "
             "ray.util.dask).")
     return block.to_pandas()

示例#7

显示文件

文件： dataset.py 项目： DmitriGekhtman/ray

 def truncate(block: Block, meta: BlockMetadata,
              count: int) -> (Block, BlockMetadata):
     block = BlockAccessor.for_block(block)
     logger.debug("Truncating last block to size: {}".format(count))
     new_block = block.slice(0, count, copy=True)
     accessor = BlockAccessor.for_block(new_block)
     new_meta = BlockMetadata(num_rows=accessor.num_rows(),
                              size_bytes=accessor.size_bytes(),
                              schema=meta.schema,
                              input_files=meta.input_files)
     return new_block, new_meta

示例#8

显示文件

文件： dataset.py 项目： DmitriGekhtman/ray

        def transform(block: Block) -> Block:
            block = BlockAccessor.for_block(block)
            total_rows = block.num_rows()
            max_batch_size = batch_size
            if max_batch_size is None:
                max_batch_size = total_rows

            builder = DelegatingArrowBlockBuilder()

            for start in range(0, total_rows, max_batch_size):
                # Build a block for each batch.
                end = min(total_rows, start + max_batch_size)
                view = block.slice(start, end, copy=False)
                if batch_format == "pandas":
                    view = BlockAccessor.for_block(view).to_pandas()
                elif batch_format == "pyarrow":
                    view = BlockAccessor.for_block(view).to_arrow_table()
                else:
                    raise ValueError(
                        f"The given batch format: {batch_format} "
                        f"is invalid. Supported batch type: {BatchType}")

                applied = fn(view)
                if isinstance(applied, list):
                    applied = applied
                elif isinstance(applied, pa.Table):
                    applied = applied
                elif isinstance(applied, pd.core.frame.DataFrame):
                    applied = pa.Table.from_pandas(applied)
                else:
                    raise ValueError("The map batch UDF returns a type "
                                     f"{type(applied)}, which is not allowed. "
                                     "The return type must be either list, "
                                     "pandas.DataFrame, or pyarrow.Table")
                builder.add_block(applied)

            return builder.build()

示例#9

显示文件

 def json_write(write_path: str, block: Block):
     block = BlockAccessor.for_block(block)
     logger.debug(
         f"Writing {block.num_rows()} records to {write_path}.")
     block.to_pandas().to_json(write_path, orient="records")

示例#10

显示文件

 def block_to_df(block: Block):
     block = BlockAccessor.for_block(block)
     return block.to_arrow_table()

示例#11

显示文件

 def block_to_df(block: Block):
     block = BlockAccessor.for_block(block)
     return block.to_pandas()

示例#12

显示文件

 def write(self, block: Block) -> str:
     block = BlockAccessor.for_block(block)
     if not self.enabled:
         raise ValueError("disabled")
     self.rows_written += block.num_rows()
     return "ok"

示例#13

显示文件

文件： dataset.py 项目： DmitriGekhtman/ray

 def agg(block: Block) -> int:
     block = BlockAccessor.for_block(block)
     return sum(block.iter_rows())

示例#14

显示文件

文件： dataset.py 项目： DmitriGekhtman/ray

 def count(block: Block) -> int:
     block = BlockAccessor.for_block(block)
     return block.num_rows()