Python Table.to_pandas примеры использования

Язык программирования: Python

Пространство имен/Пакет: pyarrow

Класс/Тип: Table

Метод/Функция: to_pandas

Примеров на hotexamples.com: 18

Python Table.to_pandas - 18 примеров найдено. Это лучшие примеры Python кода для pyarrow.Table.to_pandas, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

from_pandas(18)

to_pandas(18)

column(16)

append_column(10)

slice(9)

itercolumns(8)

from_pydict(7)

set_column(6)

to_batches(6)

drop(5)

take(5)

to_pydict(5)

filter(4)

field(4)

rename_columns(4)

from_arrays(3)

from_batches(3)

cast(3)

replace_schema_metadata(3)

combine_chunks(2)

select(1)

Пример #1

Показать файл

    def _arrow_table_to_pandas(
        cls, arrow_table: pa.Table, categories, **kwargs
    ) -> pd.DataFrame:
        _kwargs = kwargs.get("arrow_to_pandas", {})
        _kwargs.update({"use_threads": False, "ignore_metadata": False})

        return arrow_table.to_pandas(categories=categories, **_kwargs)

Пример #2

Показать файл

    def arrow_to_pandas(cls, table: pa.Table) -> pd.DataFrame:

        return table.to_pandas(
            ignore_metadata=True,  # noqa
            date_as_object=False,  # noqa
            timestamp_as_object=False,  # noqa
            types_mapper=cls.__ARROW_TO_PANDAS_TYPE_MAPPING.get)

Пример #3

Показать файл

Файл: _read_parquet.py Проект: rparthas/aws-data-wrangler

def _arrowtable2df(
    table: pa.Table,
    categories: Optional[List[str]],
    safe: bool,
    use_threads: bool,
    dataset: bool,
    path: str,
    path_root: Optional[str],
) -> pd.DataFrame:
    df: pd.DataFrame = _apply_partitions(
        df=table.to_pandas(
            use_threads=use_threads,
            split_blocks=True,
            self_destruct=True,
            integer_object_nulls=False,
            date_as_object=True,
            ignore_metadata=True,
            categories=categories,
            safe=safe,
            types_mapper=_data_types.pyarrow2pandas_extension,
        ),
        dataset=dataset,
        path=path,
        path_root=path_root,
    )
    return _utils.ensure_df_is_mutable(df=df)

Пример #4

Показать файл

def _arrowtable2df(
    table: pa.Table,
    categories: Optional[List[str]],
    safe: bool,
    use_threads: bool,
    dataset: bool,
    path: str,
    path_root: Optional[str],
) -> pd.DataFrame:
    metadata: Dict[str, Any] = {}
    if table.schema.metadata is not None and b"pandas" in table.schema.metadata:
        metadata = json.loads(table.schema.metadata[b"pandas"])
    df: pd.DataFrame = _apply_partitions(
        df=table.to_pandas(
            use_threads=use_threads,
            split_blocks=True,
            self_destruct=True,
            integer_object_nulls=False,
            date_as_object=True,
            ignore_metadata=True,
            strings_to_categorical=False,
            safe=safe,
            categories=categories,
            types_mapper=_data_types.pyarrow2pandas_extension,
        ),
        dataset=dataset,
        path=path,
        path_root=path_root,
    )
    df = _utils.ensure_df_is_mutable(df=df)
    if metadata:
        _logger.debug("metadata: %s", metadata)
        df = _apply_index(df=df, metadata=metadata)
        df = _apply_timezone(df=df, metadata=metadata)
    return df

Пример #5

Показать файл

Файл: test_writer.py Проект: mosyp/delta-rs

def test_write_pandas(tmp_path: pathlib.Path, sample_data: pa.Table):
    # When timestamp is converted to Pandas, it gets casted to ns resolution,
    # but Delta Lake schemas only support us resolution.
    sample_pandas = sample_data.to_pandas().drop(["timestamp"], axis=1)
    write_deltalake(str(tmp_path), sample_pandas)

    delta_table = DeltaTable(str(tmp_path))
    df = delta_table.to_pandas()
    assert_frame_equal(df, sample_pandas)

Пример #6

Показать файл

def _table2df(table: pa.Table,
              categories: List[str] = None,
              use_threads: bool = True) -> pd.DataFrame:
    return table.to_pandas(
        use_threads=use_threads,
        split_blocks=True,
        self_destruct=True,
        integer_object_nulls=False,
        date_as_object=True,
        ignore_metadata=True,
        categories=categories,
        types_mapper=_data_types.pyarrow2pandas_extension,
    )

Пример #7

Показать файл

Файл: ingest.py Проект: tianshizz/feast

def _write_partitioned_table_from_source(
    column_names: List[str],
    table: pa.Table,
    feature_table_date_partition_column: str,
    feature_table_timestamp_column: str,
) -> str:
    """
    Partitions dataset by date based on timestamp_column.
    Assumes date_partition_column is in date format if provided.

    Args:
        column_names: Column names in provided ingestion source
        table: PyArrow table of Dataset
        feature_table_date_partition_column: Date-partition column of FeatureTable
        feature_table_timestamp_column: Timestamp column of FeatureTable
    Returns:
        str:
            Root directory which contains date partitioned files.
    """
    dir_path = tempfile.mkdtemp()

    # Case: date_partition_column is provided and dataset does not contain it
    if feature_table_date_partition_column not in column_names:
        df = table.to_pandas()
        df[feature_table_date_partition_column] = df[
            feature_table_timestamp_column
        ].dt.date
        table = pa.Table.from_pandas(df)

    pq.write_to_dataset(
        table=table,
        root_path=dir_path,
        partition_cols=[feature_table_date_partition_column],
    )

    # Remove table from memory
    del table

    return dir_path

Пример #8

Показать файл

Файл: catalog.py Проект: nautechsystems/nautilus_trader

    def _handle_table_dataframe(
        table: pa.Table,
        mappings: Optional[Dict],
        raise_on_empty: bool = True,
        sort_columns: Optional[List] = None,
        as_type: Optional[Dict] = None,
    ):
        df = table.to_pandas().drop_duplicates()
        for col in mappings:
            df.loc[:, col] = df[col].map(mappings[col])

        if df.empty and raise_on_empty:
            local_vars = dict(locals())
            kw = [
                f"{k}={local_vars[k]}"
                for k in ("filter_expr", "instrument_ids", "start", "end")
            ]
            raise ValueError(f"Data empty for {kw}")
        if sort_columns:
            df = df.sort_values(sort_columns)
        if as_type:
            df = df.astype(as_type)
        return df

Пример #9

Показать файл

 def extract_column(self, pa_table: pa.Table) -> np.ndarray:
     series = pa_table.to_pandas(
         types_mapper=pandas_types_mapper)[pa_table.column_names[0]]
     return self._series_to_numpy(series)

Пример #10

Показать файл

 def convert_table_to_df(table: pa.Table) -> pd.DataFrame:
     return table.to_pandas(integer_object_nulls=True)

Пример #11

Показать файл

Файл: test_filters.py Проект: statisticsnorway/microdata-data-service

def print_expected(expected: Table):
    print('==================== EXPECTED ========================')
    print(expected.to_pandas())

Пример #12

Показать файл

Файл: test_filters.py Проект: statisticsnorway/microdata-data-service

def print_actual(actual: Table):
    print('==================== ACTUAL ==========================')
    print(actual.to_pandas())

Пример #13

Показать файл

 def extract_batch(self, pa_table: pa.Table) -> pd.DataFrame:
     return pa_table.to_pandas(types_mapper=pandas_types_mapper)

Пример #14

Показать файл

 def extract_column(self, pa_table: pa.Table) -> pd.Series:
     return pa_table.to_pandas(
         types_mapper=pandas_types_mapper)[pa_table.column_names[0]]

Пример #15

Показать файл

 def extract_batch(self, pa_table: pa.Table) -> dict:
     df = pa_table.to_pandas(types_mapper=pandas_types_mapper)
     return {k: self._series_to_numpy(v) for k, v in df.items()}

Пример #16

Показать файл

Файл: test_naive_execution_engine.py Проект: gityow/fugue

 def m_o(engine: NativeExecutionEngine, df: pa.Table) -> None:
     assert 1 == df.to_pandas().shape[0]

Пример #17

Показать файл

 def convert_table_to_df(table: pa.Table) -> pd.DataFrame:
     try:
         return table.to_pandas(integer_object_nulls=True)
     except pa.lib.ArrowInvalid:
         return table.to_pandas(integer_object_nulls=True,
                                timestamp_as_object=True)

Пример #18

Показать файл

Файл: defaults.py Проект: afcarl/cjworkbench

def __arrow_to_pandas(table: pyarrow.Table) -> pd.DataFrame:
    return table.to_pandas(
        date_as_object=False, deduplicate_objects=True,
        ignore_metadata=True)  # TODO ensure dictionaries stay dictionaries