Python ReadAllFromParquet 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: apache_beam.io.parquetio

클래스/타입: ReadAllFromParquet

hotexamples.com에서의 예제들: 6

Python ReadAllFromParquet - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 apache_beam.io.parquetio.ReadAllFromParquet에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ReadAllFromParquet(3)

자주 사용되는 메소드들

ReadAllFromParquet (3)

예제 #1

파일 보기

 def test_read_all_from_parquet_file_pattern(self):
   file_pattern = self._write_pattern(5)
   with TestPipeline() as p:
     assert_that(
         p \
         | Create([file_pattern]) \
         | ReadAllFromParquet(),
         equal_to(self.RECORDS * 5))

예제 #2

파일 보기

 def test_read_all_from_parquet_single_file(self):
   path = self._write_data()
   with TestPipeline() as p:
     assert_that(
         p \
         | Create([path]) \
         | ReadAllFromParquet(),
         equal_to(self.RECORDS))

예제 #3

파일 보기

파일: parquetio_test.py 프로젝트: rezarokni/beam

 def test_read_all_from_parquet_with_filename(self):
   file_pattern, file_paths = self._write_pattern(3, with_filename=True)
   result = [(path, record) for path in file_paths for record in self.RECORDS]
   with TestPipeline() as p:
     assert_that(
         p \
         | Create([file_pattern]) \
         | ReadAllFromParquet(with_filename=True),
         equal_to(result))

예제 #4

파일 보기

 def test_read_all_from_parquet_many_file_patterns(self):
   file_pattern1 = self._write_pattern(5)
   file_pattern2 = self._write_pattern(2)
   file_pattern3 = self._write_pattern(3)
   with TestPipeline() as p:
     assert_that(
         p \
         | Create([file_pattern1, file_pattern2, file_pattern3]) \
         | ReadAllFromParquet(),
         equal_to(self.RECORDS * 10))

예제 #5

파일 보기

 def test_read_all_from_parquet_many_single_files(self):
   path1 = self._write_data()
   path2 = self._write_data()
   path3 = self._write_data()
   with TestPipeline() as p:
     assert_that(
         p \
         | Create([path1, path2, path3]) \
         | ReadAllFromParquet(),
         equal_to(self.RECORDS * 3))

예제 #6

파일 보기

파일: parquetio_it_test.py 프로젝트: sanjayksh/beam

 def _verify_data(self, pcol, init_size, data_size):
   read = pcol | 'read' >> ReadAllFromParquet()
   v1 = (
       read
       | 'get_number' >> Map(lambda x: x['number'])
       | 'sum_globally' >> CombineGlobally(sum)
       | 'validate_number' >>
       FlatMap(lambda x: TestParquetIT._sum_verifier(init_size, data_size, x)))
   v2 = (
       read
       | 'make_pair' >> Map(lambda x: (x['name'], x['number']))
       | 'count_per_key' >> Count.PerKey()
       | 'validate_name' >> FlatMap(
           lambda x: TestParquetIT._count_verifier(init_size, data_size, x)))
   _ = ((v1, v2, pcol)
        | 'flatten' >> Flatten()
        | 'reshuffle' >> Reshuffle()
        | 'cleanup' >> Map(lambda x: FileSystems.delete([x])))