Python read_parquet 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: zoo.orca.data.image.parquet_dataset

메소드/함수: read_parquet

hotexamples.com에서의 예제들: 6

Python read_parquet - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 zoo.orca.data.image.parquet_dataset.read_parquet에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

    def test_read_parquet_images_tf_dataset(self):
        temp_dir = tempfile.mkdtemp()

        try:
            ParquetDataset.write("file://" + temp_dir,
                                 images_generator(),
                                 images_schema,
                                 block_size=4)
            path = "file://" + temp_dir
            output_types = {
                "id": tf.string,
                "image": tf.string,
                "label": tf.float32
            }
            dataset = read_parquet("tf_dataset",
                                   input_path=path,
                                   output_types=output_types)
            for dt in dataset.take(1):
                print(dt.keys())

            dataloader = read_parquet("dataloader", input_path=path)
            cur_dl = iter(dataloader)
            while True:
                try:
                    print(next(cur_dl)['label'])
                except StopIteration:
                    break

        finally:
            shutil.rmtree(temp_dir)

예제 #2

파일 보기

파일: test_read_parquet_images.py 프로젝트: yangw1234/analytics-zoo

    def test_read_parquet_images_tf_dataset(self):
        temp_dir = tempfile.mkdtemp()

        try:
            ParquetDataset.write("file://" + temp_dir,
                                 images_generator(),
                                 images_schema,
                                 block_size=4)
            path = "file://" + temp_dir
            output_types = {
                "id": tf.string,
                "image": tf.string,
                "label": tf.float32
            }
            dataset = read_parquet("tf_dataset",
                                   path=path,
                                   output_types=output_types)
            for dt in dataset.take(1):
                print(dt.keys())

            num_shards, rank = 3, 1
            dataset_shard = read_parquet("tf_dataset",
                                         path=path,
                                         config={
                                             "num_shards": num_shards,
                                             "rank": rank
                                         },
                                         output_types=output_types)
            assert len(list(dataset_shard)) <= len(list(dataset)) // num_shards, \
                "len of dataset_shard should be 1/`num_shards` of the whole dataset."

            dataloader = read_parquet("dataloader", path=path)
            dataloader_shard = read_parquet("dataloader",
                                            path=path,
                                            config={
                                                "num_shards": num_shards,
                                                "rank": rank
                                            })
            cur_dl = iter(dataloader_shard)
            cur_count = 0
            while True:
                try:
                    print(next(cur_dl)['label'])
                    cur_count += 1
                except StopIteration:
                    break
            assert cur_count == len(list(dataset_shard))
        finally:
            shutil.rmtree(temp_dir)

예제 #3

파일 보기

 def data_creator(config, batch_size):
     dataset = read_parquet("tf_dataset",
                            input_path=path,
                            output_types=output_types,
                            output_shapes=output_shapes)
     dataset = dataset.shuffle(10)
     dataset = dataset.map(lambda data_dict:
                           (data_dict["image"], data_dict["label"]))
     dataset = dataset.map(parse_data_train)
     dataset = dataset.batch(batch_size)
     return dataset

예제 #4

파일 보기

파일: yoloV3.py 프로젝트: zzti-bsj/analytics-zoo

 def val_data_creator(config, batch_size):
     val_dataset = read_parquet(format="tf_dataset", path=voc_val_path,
                                output_types=output_types,
                                output_shapes=output_shapes)
     val_dataset = val_dataset.map(
         lambda data_dict: (data_dict["image"], data_dict["label"]))
     val_dataset = val_dataset.map(parse_data_train)
     val_dataset = val_dataset.batch(batch_size)
     val_dataset = val_dataset.map(lambda x, y: (
         transform_images(x, DEFAULT_IMAGE_SIZE),
         transform_targets(y, anchors, anchor_masks, DEFAULT_IMAGE_SIZE)))
     return val_dataset

예제 #5

파일 보기

파일: yoloV3.py 프로젝트: zzti-bsj/analytics-zoo

 def train_data_creator(config, batch_size):
     train_dataset = read_parquet(format="tf_dataset", path=voc_train_path,
                                  output_types=output_types,
                                  output_shapes=output_shapes)
     train_dataset = train_dataset.map(
         lambda data_dict: (data_dict["image"], data_dict["label"]))
     train_dataset = train_dataset.map(parse_data_train)
     train_dataset = train_dataset.shuffle(buffer_size=512)
     train_dataset = train_dataset.batch(batch_size)
     train_dataset = train_dataset.map(lambda x, y: (
         transform_images(x, DEFAULT_IMAGE_SIZE),
         transform_targets(y, anchors, anchor_masks, DEFAULT_IMAGE_SIZE)))
     train_dataset = train_dataset.prefetch(buffer_size=tf.data.experimental.AUTOTUNE)
     return train_dataset

예제 #6

파일 보기

    def test_read_parquet_images_tf_dataset(self):
        temp_dir = tempfile.mkdtemp()

        try:
            ParquetDataset.write("file://" + temp_dir, images_generator(),
                                 images_schema)
            path = "file://" + temp_dir
            output_types = {
                "id": tf.string,
                "image": tf.string,
                "label": tf.float32
            }
            dataset = read_parquet("tf_dataset",
                                   input_path=path,
                                   output_types=output_types)
            for dt in dataset.take(1):
                print(dt.keys())

        finally:
            shutil.rmtree(temp_dir)