Python SQLContext.select 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark

클래스/타입: SQLContext

메소드/함수: select

hotexamples.com에서의 예제들: 1

Python SQLContext.select - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.SQLContext.select에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

sql(30)

createDataFrame(30)

SQLContext(28)

getOrCreate(17)

setConf(14)

registerDataFrameAsTable(10)

load(4)

cacheTable(4)

jsonFile(3)

show(3)

parquetFile(3)

registerFunction(3)

withColumn(2)

dropTempTable(2)

tableNames(2)

clearCache(2)

range(2)

applySchema(2)

jsonRDD(2)

inferSchema(2)

groupby(1)

printSchema(1)

select(1)

persist(1)

filter(1)

예제 #1

파일 보기

def load_sentence_data_frame(sc, dataPath):
    df = SQLContext(sc).read.format('com.databricks.spark.csv') \
        .options(header='true', inferschema='true') \
        .load(dataPath)

    # 複製欄位(vector)
    df = df.withColumn("_vector", df['vector'])

    # 去除_vector的 [ 以及 ]
    df = df.select(
        df['id'], df['sentence'], df['vector'],
        regexp_replace(df['_vector'], "[\]\[]", "").alias("_vector"))

    # 分割_vector字串並且轉型
    df = df.select(
        df['id'], df['sentence'], df['vector'],
        split(df['_vector'], "  ").cast("array<double>").alias("_vector"))

    # 將double轉換為vectory再轉換為numpy array
    tmp = df.rdd.flatMap(lambda x: {
        Row(x['id'], x['sentence'], x['vector'], Vectors.dense(x['_vector']))
    })

    # 再轉換為dataframe
    df = SQLContext(sc).createDataFrame(tmp)\
            .selectExpr("_1 as id",
                        "_2 as sentence",
                        "_3 as vector",
                        "_4 as _vector")

    # 回傳dataframe
    return df