Python FeatureTable.read_csv 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: zoo.friesian.feature

클래스/타입: FeatureTable

메소드/함수: read_csv

hotexamples.com에서의 예제들: 4

Python FeatureTable.read_csv - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 zoo.friesian.feature.FeatureTable.read_csv에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

read_parquet(25)

FeatureTable(21)

size(4)

read_csv(4)

min_max_scale(1)

to_list(1)

to_dict(1)

sample(1)

read_json(1)

ordinal_shuffle_partition(1)

normalize(1)

min(1)

add(1)

max(1)

hash_encode(1)

get_stats(1)

gen_string_idx(1)

encode_string(1)

cross_hash_encode(1)

cast(1)

add_neg_hist_seq(1)

add_length(1)

to_spark_df(1)

예제 #1

파일 보기

 def test_read_csv(self):
     file_path = os.path.join(self.resource_path,
                              "friesian/feature/data.csv")
     feature_tbl = FeatureTable.read_csv(file_path, header=True)
     assert feature_tbl.size() == 4
     columns = feature_tbl.columns
     assert columns == ["col1", "col2", "col3"]
     records = feature_tbl.df.collect()
     assert isinstance(records[0][0], float)
     assert isinstance(records[0][1], str) and isinstance(
         records[0][1], str)
     file_path2 = os.path.join(self.resource_path,
                               "friesian/feature/data_no_header.csv")
     feature_tbl2 = FeatureTable.read_csv(file_path2,
                                          names=["col1", "_col2", "col3"],
                                          dtype={"col1": "int"})
     assert feature_tbl2.size() == 4
     columns2 = feature_tbl2.columns
     assert columns2 == ["col1", "_col2", "col3"]
     records2 = feature_tbl2.df.collect()
     assert isinstance(records2[0][0], int)
     assert isinstance(records2[0][1], str) and isinstance(
         records2[0][1], str)
     feature_tbl3 = FeatureTable.read_csv(file_path,
                                          header=True,
                                          dtype=["int", "str", "str"])
     records3 = feature_tbl3.df.collect()
     assert isinstance(records3[0][0], int)
     assert isinstance(records3[0][1], str) and isinstance(
         records3[0][1], str)

예제 #2

파일 보기

 def test_split(self):
     file_path = os.path.join(self.resource_path, "orca/learn/ncf.csv")
     feature_tbl = FeatureTable.read_csv(file_path,
                                         header=True,
                                         dtype="int")
     tbl1, tbl2 = feature_tbl.split([0.8, 0.2], seed=1128)
     total_size = feature_tbl.size()
     size1 = tbl1.size()
     size2 = tbl2.size()
     assert size1 + size2 == total_size

예제 #3

파일 보기

 def test_append_column(self):
     file_path = os.path.join(self.resource_path, "friesian/feature/")
     df = FeatureTable.read_csv(file_path + "data.csv", header=True)
     df = df.append_column("z", 0)
     assert df.select("z").size() == 4
     assert df.filter("z == 0").size() == 4
     df = df.append_column("str", "a")
     assert df.select("str").size() == 4
     assert df.filter("str == 'a'").size() == 4
     df = df.append_column("float", 1.2)
     assert df.select("float").size() == 4
     assert df.filter("float == 1.2").size() == 4

예제 #4

파일 보기

 def test_category_encode_and_one_hot_encode(self):
     file_path = os.path.join(self.resource_path,
                              "friesian/feature/data.csv")
     feature_tbl = FeatureTable.read_csv(file_path, header=True)
     feature_tbl, indices = feature_tbl.category_encode(
         columns=["col2", "col3"])
     assert isinstance(indices, list) and len(indices) == 2
     assert isinstance(indices[0], StringIndex) and isinstance(
         indices[1], StringIndex)
     assert indices[0].size() == 3 and indices[1].size() == 4
     dict1 = indices[0].to_dict()
     dict2 = indices[1].to_dict()
     records = feature_tbl.df.collect()
     assert records[0][1] == dict1["x"] and records[0][2] == dict2["abc"]
     assert records[3][1] == dict1["z"] and records[2][2] == dict2["aaa"]
     feature_tbl = feature_tbl.one_hot_encode(columns=["col2", "col3"],
                                              prefix=["o1", "o2"])
     feature_tbl.show()
     columns = feature_tbl.columns
     assert columns == [
         "col1", "o1_0", "o1_1", "o1_2", "o1_3", "o2_0", "o2_1", "o2_2",
         "o2_3", "o2_4"
     ]
     records = feature_tbl.df.collect()
     record = records[0]
     value1 = dict1["x"]
     value2 = dict2["abc"]
     for i in range(1, 4):
         if i == value1:
             assert record[i + 1] == 1
         else:
             assert record[i + 1] == 0
     for i in range(1, 5):
         if i == value2:
             assert record[i + 5] == 1
         else:
             assert record[i + 5] == 0