Python HiveContext.registerRDDAsTableの例

プログラミング言語: Python

名前空間/パッケージ名: pyspark.sql

クラス/型: HiveContext

メソッド/関数: registerRDDAsTable

hotexamples.comのコード掲載数: 3

Python HiveContext.registerRDDAsTable - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpyspark.sql.HiveContext.registerRDDAsTableの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

HiveContext(30)

table(30)

sql(30)

setConf(30)

createDataFrame(30)

registerDataFrameAsTable(12)

cacheTable(8)

inferSchema(7)

jsonFile(7)

parquetFile(6)

tableNames(4)

jsonRDD(4)

clearCache(3)

range(3)

dropTempTable(3)

applySchema(3)

registerFunction(2)

hql(2)

registerRDDAsTable(2)

spl(1)

stop(1)

tables(1)

load(1)

show(1)

refreshTable(1)

_createForTesting(1)

getConf(1)

close(1)

cache(1)

_inferSchema(1)

uncacheTable(1)

コード例 #1

ファイルを表示

ファイル: sae_nginx_top_url.py プロジェクト: imran273/pyspark-1

"""
i = 1

for domain in top_domain_list:
    top_domain_dict[domain[0]] = i

    i = i + 1

print top_domain_dict
"""

jsonRDD = hc.jsonFile(
    "hdfs://dip.cdh5.dev:8020/user/hdfs/rawlog/app_saesinacomkafka12345_nginx/2015_10_22/09"
)

hc.registerRDDAsTable(jsonRDD, "temp_schema")


def if_in_top_10_domain(domain):
    if domain == '' or domain == None or len(domain) < 3:
        return 'no'
    else:
        if top_domain_dict.has_key(domain):
            return top_domain_dict[domain]
        else:
            return 'no'


hc.registerFunction("temp_if_in_top_10_domain", if_in_top_10_domain)

spark_sql = '''select domain,url,cast(sum(body_bytes_sent) as bigint) as flow from (

コード例 #2

ファイルを表示

ファイル: TestSparkSql4.py プロジェクト: dxcv/backtest-2

datas = ["1 a 28", "2 b 29", "3 c 30"]

source = sc.parallelize(datas)

splits = source.map(lambda line: line.split(" "))

rows = splits.map(lambda words: (int(words[0]), words[1], int(words[2])))

fields = []

fields.append(StructField("id", IntegerType(). True))
fields.append(StructField("name", StringType(). True))
fields.append(StructField("age", IntegerType(). True))

schema = StructType(fields)

people = hc.applySchema(rows, schema)

hc.registerRDDAsTable(people, "people")

hc.registerFunction("myfunc", lambda name: name.upper())

rows = hc.sql(
    "select myfunc(name) from people where age>28 and age<30").collect()

sc.stop()

for row in rows:
    print(row)

コード例 #3

ファイルを表示

ファイル: sae_nginx_top_url.py プロジェクト: Leaderman/pyspark

}

"""
i = 1

for domain in top_domain_list:
    top_domain_dict[domain[0]] = i

    i = i + 1

print top_domain_dict
"""

jsonRDD = hc.jsonFile("hdfs://dip.cdh5.dev:8020/user/hdfs/rawlog/app_saesinacomkafka12345_nginx/2015_10_22/09")

hc.registerRDDAsTable(jsonRDD, "temp_schema")


def if_in_top_10_domain(domain):
    if domain == "" or domain == None or len(domain) < 3:
        return "no"
    else:
        if top_domain_dict.has_key(domain):
            return top_domain_dict[domain]
        else:
            return "no"


hc.registerFunction("temp_if_in_top_10_domain", if_in_top_10_domain)

spark_sql = """select domain,url,cast(sum(body_bytes_sent) as bigint) as flow from (