Python ArrowWriter.finalize Examples, datasets.arrow_writer.ArrowWriter.finalize Python Examples

Example #1

0

Show file

 def test_write_batch_no_schema(self):
     output = pa.BufferOutputStream()
     writer = ArrowWriter(stream=output)
     writer.write_batch({"col_1": ["foo", "bar"], "col_2": [1, 2]})
     num_examples, num_bytes = writer.finalize()
     self.assertEqual(num_examples, 2)
     self.assertGreater(num_bytes, 0)
     fields = {"col_1": pa.string(), "col_2": pa.int64()}
     self.assertEqual(writer._schema,
                      pa.schema(fields, metadata=writer._schema.metadata))
     self._check_output(output.getvalue())

Example #2

0

Show file

File: test_arrow_writer.py Project: lingsond/huggingface-datasets

 def test_write_schema(self):
     fields = {"col_1": pa.string(), "col_2": pa.int64()}
     output = pa.BufferOutputStream()
     writer = ArrowWriter(stream=output, schema=pa.schema(fields))
     writer.write({"col_1": "foo", "col_2": 1})
     writer.write({"col_1": "bar", "col_2": 2})
     num_examples, num_bytes = writer.finalize()
     self.assertEqual(num_examples, 2)
     self.assertGreater(num_bytes, 0)
     self.assertEqual(writer._schema,
                      pa.schema(fields, metadata=writer._schema.metadata))
     self._check_output(output.getvalue())

Example #3

0

Show file

File: test_arrow_writer.py Project: lingsond/huggingface-datasets

 def test_write_file(self):
     with tempfile.TemporaryDirectory() as tmp_dir:
         fields = {"col_1": pa.string(), "col_2": pa.int64()}
         output = os.path.join(tmp_dir, "test.arrow")
         writer = ArrowWriter(path=output, schema=pa.schema(fields))
         writer.write_batch({"col_1": ["foo", "bar"], "col_2": [1, 2]})
         num_examples, num_bytes = writer.finalize()
         self.assertEqual(num_examples, 2)
         self.assertGreater(num_bytes, 0)
         self.assertEqual(
             writer._schema,
             pa.schema(fields, metadata=writer._schema.metadata))
         self._check_output(output)

Example #4

0

Show file

def test_builder_as_dataset(split, expected_dataset_class,
                            expected_dataset_length, in_memory, tmp_path):
    cache_dir = str(tmp_path)
    dummy_builder = DummyBuilder(cache_dir=cache_dir, name="dummy")
    os.makedirs(dummy_builder.cache_dir)

    dummy_builder.info.splits = SplitDict()
    dummy_builder.info.splits.add(SplitInfo("train", num_examples=10))
    dummy_builder.info.splits.add(SplitInfo("test", num_examples=10))

    for info_split in dummy_builder.info.splits:
        writer = ArrowWriter(
            path=os.path.join(dummy_builder.cache_dir,
                              f"dummy_builder-{info_split}.arrow"),
            features=Features({"text": Value("string")}),
        )
        writer.write_batch({"text": ["foo"] * 10})
        writer.finalize()

    previous_allocated_memory = pa.total_allocated_bytes()
    dataset = dummy_builder.as_dataset(split=split, in_memory=in_memory)
    increased_allocated_memory = (pa.total_allocated_bytes() -
                                  previous_allocated_memory) > 0
    assert isinstance(dataset, expected_dataset_class)
    if isinstance(dataset, DatasetDict):
        assert list(dataset.keys()) == ["train", "test"]
        datasets = dataset.values()
        expected_splits = ["train", "test"]
    elif isinstance(dataset, Dataset):
        datasets = [dataset]
        expected_splits = [split]
    for dataset, expected_split in zip(datasets, expected_splits):
        assert dataset.split == expected_split
        assert len(dataset) == expected_dataset_length
        assert dataset.features == Features({"text": Value("string")})
        dataset.column_names == ["text"]
    assert increased_allocated_memory == in_memory

Example #5

0

Show file