Python DatasetDict.from_csvの例

プログラミング言語: Python

名前空間/パッケージ名: datasets.dataset_dict

クラス/型: DatasetDict

メソッド/関数: from_csv

hotexamples.comのコード掲載数: 4

Python DatasetDict.from_csv - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのdatasets.dataset_dict.DatasetDict.from_csvの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

from_csv(4)

from_json(4)

from_text(4)

from_parquet(3)

load_from_disk(3)

map(3)

DatasetDict(2)

align_labels_with_mapping(1)

flatten(1)

flatten_(1)

values(1)

コード例 #1

ファイルを表示

def test_datasetdict_from_csv(split, features, keep_in_memory, csv_path,
                              tmp_path):
    if split:
        path = {split: csv_path}
    else:
        split = "train"
        path = {"train": csv_path, "test": csv_path}
    cache_dir = tmp_path / "cache"
    # CSV file loses col_1 string dtype information: default now is "int64" instead of "string"
    default_expected_features = {
        "col_1": "int64",
        "col_2": "int64",
        "col_3": "float64"
    }
    expected_features = features.copy(
    ) if features else default_expected_features
    features = Features(
        {feature: Value(dtype)
         for feature, dtype in features.items()}) if features else None
    with assert_arrow_memory_increases(
    ) if keep_in_memory else assert_arrow_memory_doesnt_increase():
        dataset = DatasetDict.from_csv(path,
                                       features=features,
                                       cache_dir=cache_dir,
                                       keep_in_memory=keep_in_memory)
    assert isinstance(dataset, DatasetDict)
    dataset = dataset[split]
    assert dataset.num_rows == 4
    assert dataset.num_columns == 3
    assert dataset.column_names == ["col_1", "col_2", "col_3"]
    assert dataset.split == split
    for feature, expected_dtype in expected_features.items():
        assert dataset.features[feature].dtype == expected_dtype

コード例 #2

ファイルを表示

ファイル: test_dataset_dict.py プロジェクト: cahya-wirawan/datasets

def test_datasetdict_from_csv_keep_in_memory(keep_in_memory, csv_path,
                                             tmp_path):
    cache_dir = tmp_path / "cache"
    expected_features = {
        "col_1": "int64",
        "col_2": "int64",
        "col_3": "float64"
    }
    with assert_arrow_memory_increases(
    ) if keep_in_memory else assert_arrow_memory_doesnt_increase():
        dataset = DatasetDict.from_csv({"train": csv_path},
                                       cache_dir=cache_dir,
                                       keep_in_memory=keep_in_memory)
    _check_csv_datasetdict(dataset, expected_features)

コード例 #3

ファイルを表示

ファイル: test_dataset_dict.py プロジェクト: cahya-wirawan/datasets

def test_datasetdict_from_csv_split(split, csv_path, tmp_path):
    if split:
        path = {split: csv_path}
    else:
        split = "train"
        path = {"train": csv_path, "test": csv_path}
    cache_dir = tmp_path / "cache"
    expected_features = {
        "col_1": "int64",
        "col_2": "int64",
        "col_3": "float64"
    }
    dataset = DatasetDict.from_csv(path, cache_dir=cache_dir)
    _check_csv_datasetdict(dataset,
                           expected_features,
                           splits=list(path.keys()))
    assert all(dataset[split].split == split for split in path.keys())

コード例 #4

ファイルを表示

ファイル: test_dataset_dict.py プロジェクト: cahya-wirawan/datasets

def test_datasetdict_from_csv_features(features, csv_path, tmp_path):
    cache_dir = tmp_path / "cache"
    # CSV file loses col_1 string dtype information: default now is "int64" instead of "string"
    default_expected_features = {
        "col_1": "int64",
        "col_2": "int64",
        "col_3": "float64"
    }
    expected_features = features.copy(
    ) if features else default_expected_features
    features = (Features({
        feature: Value(dtype)
        for feature, dtype in features.items()
    }) if features is not None else None)
    dataset = DatasetDict.from_csv({"train": csv_path},
                                   features=features,
                                   cache_dir=cache_dir)
    _check_csv_datasetdict(dataset, expected_features)