Python Context.countの例

プログラミング言語: Python

名前空間/パッケージ名: pysparkling

クラス/型: Context

メソッド/関数: count

hotexamples.comのコード掲載数: 21

Python Context.count - 21件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpysparkling.Context.countの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Context(30)

collect(23)

saveAsTextFile(10)

count(10)

parallelize(9)

map(6)

textFile(3)

mean(2)

foreach(2)

lookup(2)

startswith(2)

takeSample(2)

take(2)

union(2)

first(2)

filter(2)

toLocalIterator(1)

top(1)

pipe(1)

sum(1)

subtract(1)

zip(1)

cartesian(1)

sample(1)

rightOuterJoin(1)

reduceByKey(1)

reduce(1)

countByValue(1)

persist(1)

groupBy(1)

flatMap(1)

flatMapValues(1)

fold(1)

foldByKey(1)

foreachPartition(1)

getNumPartitions(1)

histogram(1)

countByKey(1)

intersection(1)

join(1)

keyBy(1)

leftOuterJoin(1)

cache(1)

mapPartitions(1)

max(1)

zipWithUniqueId(1)

コード例 #1

ファイルを表示

ファイル: test_rdd_unit.py プロジェクト: gitter-badger/pysparkling

def test_filter():
    my_rdd = Context().parallelize(
        [1, 2, 2, 4, 1, 3, 5, 9],
        3,
    ).filter(lambda x: x % 2 == 0)
    print(my_rdd.collect())
    print(my_rdd.count())
    assert my_rdd.count() == 3

コード例 #2

ファイルを表示

def test_s3_textFile_loop():
    random.seed()

    fn = f'{S3_TEST_PATH}/pysparkling_test_{random.random() * 999999.0:d}.txt'

    rdd = Context().parallelize(f'Line {n}' for n in range(200))
    rdd.saveAsTextFile(fn)
    rdd_check = Context().textFile(fn)

    assert (rdd.count() == rdd_check.count()
            and all(e1 == e2
                    for e1, e2 in zip(rdd.collect(), rdd_check.collect())))

コード例 #3

ファイルを表示

ファイル: test_textFile.py プロジェクト: szdbl/pysparkling

def test_gs_textFile_loop():
    random.seed()

    fn = '{}/pysparkling_test_{:d}.txt'.format(GS_TEST_PATH,
                                               random.random() * 999999.0)

    rdd = Context().parallelize('Line {0}'.format(n) for n in range(200))
    rdd.saveAsTextFile(fn)
    rdd_check = Context().textFile(fn)

    assert (rdd.count() == rdd_check.count()
            and all(e1 == e2
                    for e1, e2 in zip(rdd.collect(), rdd_check.collect())))

コード例 #4

ファイルを表示

def test_hdfs_textFile_loop():
    random.seed()

    fn = f'{HDFS_TEST_PATH}/pysparkling_test_{random.random() * 999999.0:d}.txt'
    print(f'HDFS test file: {fn}')

    rdd = Context().parallelize(f'Hello World {x}' for x in range(10))
    rdd.saveAsTextFile(fn)
    read_rdd = Context().textFile(fn)
    print(rdd.collect())
    print(read_rdd.collect())
    assert (rdd.count() == read_rdd.count()
            and all(r1 == r2
                    for r1, r2 in zip(rdd.collect(), read_rdd.collect())))

コード例 #5

ファイルを表示

ファイル: test_textFile.py プロジェクト: svenkreiss/pysparkling

def test_gs_textFile_loop():
    random.seed()

    fn = '{}/pysparkling_test_{:d}.txt'.format(
        GS_TEST_PATH, random.random() * 999999.0)

    rdd = Context().parallelize('Line {0}'.format(n) for n in range(200))
    rdd.saveAsTextFile(fn)
    rdd_check = Context().textFile(fn)

    assert (
        rdd.count() == rdd_check.count() and
        all(e1 == e2 for e1, e2 in zip(rdd.collect(), rdd_check.collect()))
    )

コード例 #6

ファイルを表示

ファイル: test_textFile.py プロジェクト: szdbl/pysparkling

def test_hdfs_textFile_loop():
    random.seed()

    fn = '{}/pysparkling_test_{:d}.txt'.format(HDFS_TEST_PATH,
                                               random.random() * 999999.0)
    print('HDFS test file: {0}'.format(fn))

    rdd = Context().parallelize('Hello World {0}'.format(x) for x in range(10))
    rdd.saveAsTextFile(fn)
    read_rdd = Context().textFile(fn)
    print(rdd.collect())
    print(read_rdd.collect())
    assert (rdd.count() == read_rdd.count()
            and all(r1 == r2
                    for r1, r2 in zip(rdd.collect(), read_rdd.collect())))

コード例 #7

ファイルを表示

def test_s3_textFile_loop():
    if not AWS_ACCESS_KEY_ID or not S3_TEST_PATH:
        raise SkipTest

    random.seed()

    fn = '{}/pysparkling_test_{0}.txt'.format(S3_TEST_PATH,
                                              int(random.random() * 999999.0))

    rdd = Context().parallelize("Line {0}".format(n) for n in range(200))
    rdd.saveAsTextFile(fn)
    rdd_check = Context().textFile(fn)

    assert (rdd.count() == rdd_check.count()
            and all(e1 == e2
                    for e1, e2 in zip(rdd.collect(), rdd_check.collect())))

コード例 #8

ファイルを表示

def test_gs_textFile_loop():
    if not OAUTH2_CLIENT_ID or not GS_TEST_PATH:
        raise SkipTest

    random.seed()

    fn = GS_TEST_PATH + '/pysparkling_test_{0}.txt'.format(
        int(random.random() * 999999.0))

    rdd = Context().parallelize("Line {0}".format(n) for n in range(200))
    rdd.saveAsTextFile(fn)
    rdd_check = Context().textFile(fn)

    assert (rdd.count() == rdd_check.count()
            and all(e1 == e2
                    for e1, e2 in zip(rdd.collect(), rdd_check.collect())))

コード例 #9

ファイルを表示

ファイル: test_textFile.py プロジェクト: svenkreiss/pysparkling

def test_hdfs_textFile_loop():
    random.seed()

    fn = '{}/pysparkling_test_{:d}.txt'.format(
        HDFS_TEST_PATH, random.random() * 999999.0)
    print('HDFS test file: {0}'.format(fn))

    rdd = Context().parallelize('Hello World {0}'.format(x) for x in range(10))
    rdd.saveAsTextFile(fn)
    read_rdd = Context().textFile(fn)
    print(rdd.collect())
    print(read_rdd.collect())
    assert (
        rdd.count() == read_rdd.count() and
        all(r1 == r2 for r1, r2 in zip(rdd.collect(), read_rdd.collect()))
    )

コード例 #10

ファイルを表示

def test_hdfs_textFile_loop():
    if not HDFS_TEST_PATH:
        raise SkipTest

    random.seed()

    fn = HDFS_TEST_PATH+'/pysparkling_test_{0}.txt'.format(
        int(random.random()*999999.0)
    )

    rdd = Context().parallelize('Hello World {0}'.format(x) for x in range(10))
    rdd.saveAsTextFile(fn)
    read_rdd = Context().textFile(fn)
    assert (
        rdd.count() == read_rdd.count() and
        all(r1 == r2 for r1, r2 in zip(rdd.collect(), read_rdd.collect()))
    )

コード例 #11

ファイルを表示

ファイル: test_textFile.py プロジェクト: hvsarma/pysparkling

def test_s3_textFile_loop():
    if not AWS_ACCESS_KEY_ID or not S3_TEST_PATH:
        raise SkipTest

    random.seed()

    fn = S3_TEST_PATH+'/pysparkling_test_{0}.txt'.format(
        int(random.random()*999999.0)
    )

    rdd = Context().parallelize("Line {0}".format(n) for n in range(200))
    rdd.saveAsTextFile(fn)
    rdd_check = Context().textFile(fn)

    assert (
        rdd.count() == rdd_check.count() and
        all(e1 == e2 for e1, e2 in zip(rdd.collect(), rdd_check.collect()))
    )

コード例 #12

ファイルを表示

ファイル: test_textFile.py プロジェクト: alexprengere/pysparkling

def test_gs_textFile_loop():
    if not OAUTH2_CLIENT_ID or not GS_TEST_PATH:
        raise SkipTest

    random.seed()

    fn = '{}/pysparkling_test_{0}.txt'.format(
        GS_TEST_PATH, int(random.random() * 999999.0)
    )

    rdd = Context().parallelize("Line {0}".format(n) for n in range(200))
    rdd.saveAsTextFile(fn)
    rdd_check = Context().textFile(fn)

    assert (
        rdd.count() == rdd_check.count() and
        all(e1 == e2 for e1, e2 in zip(rdd.collect(), rdd_check.collect()))
    )

コード例 #13

ファイルを表示

ファイル: test_context_unit.py プロジェクト: telamonian/pysparkling

def test_parallelize_empty_partitions_at_end():
    my_rdd = Context().parallelize(range(3529), 500)
    print(my_rdd.getNumPartitions())
    my_rdd.foreachPartition(lambda p: print(sum(1 for _ in p)))
    assert my_rdd.getNumPartitions() == 500 and my_rdd.count() == 3529

コード例 #14

ファイルを表示

ファイル: readme_example.py プロジェクト: nicoheidtke/pysparkling

from pysparkling import Context

my_rdd = Context().textFile("tests/*.py")
print(
    "In tests/*.py: all lines={0}, with import={1}".format(
        my_rdd.count(), my_rdd.filter(lambda l: l.startswith("import ")).count()
    )
)

コード例 #15

ファイルを表示

ファイル: test_context_unit.py プロジェクト: nicoheidtke/pysparkling

def test_parallelize_empty_partitions_at_end():
    my_rdd = Context().parallelize(range(3529), 500)
    print(my_rdd.getNumPartitions())
    my_rdd.foreachPartition(lambda p: print(sum(1 for _ in p)))
    assert my_rdd.getNumPartitions() == 500 and my_rdd.count() == 3529

コード例 #16

ファイルを表示

from pysparkling import Context

my_rdd = Context().textFile('tests/*.py')

unfiltered_count = my_rdd.count()
filtered_count = my_rdd.filter(lambda l: l.startswith("import ")).count()
print(
    f'In tests/*.py: all lines={unfiltered_count}, with import={filtered_count}'
)

コード例 #17

ファイルを表示

ファイル: readme_example.py プロジェクト: alexprengere/pysparkling

from __future__ import print_function

from pysparkling import Context

my_rdd = Context().textFile('tests/*.py')
print('In tests/*.py: all lines={0}, with import={1}'.format(
    my_rdd.count(),
    my_rdd.filter(lambda l: l.startswith('import ')).count(),
))

コード例 #18

ファイルを表示

ファイル: readme_example.py プロジェクト: giserh/pysparkling

from pysparkling import Context

my_rdd = Context().textFile('tests/*.py')
print('In tests/*.py: all lines={0}, with import={1}'.format(
    my_rdd.count(),
    my_rdd.filter(lambda l: l.startswith('import ')).count()))

コード例 #19

ファイルを表示

ファイル: test_rdd_unit.py プロジェクト: gitter-badger/pysparkling

def test_distinct():
    my_rdd = Context().parallelize([1, 2, 2, 4, 1]).distinct()
    assert my_rdd.count() == 3

コード例 #20

ファイルを表示

ファイル: test_rdd_unit.py プロジェクト: gitter-badger/pysparkling

def test_count_partitions():
    my_rdd = Context().parallelize([1, 2, 3], 2)
    print(my_rdd.collect())
    my_rdd.foreach(print)
    assert my_rdd.count() == 3

コード例 #21

ファイルを表示

ファイル: test_rdd_unit.py プロジェクト: gitter-badger/pysparkling

def test_count():
    my_rdd = Context().parallelize([1, 2, 3])
    assert my_rdd.count() == 3