Exemplo n.º 1
0
def split(data):
    list_1 = []
    for i in data['Name'].unique():
        pd = data[data.Name.isin([i])].reset_index(drop=True)
        # 先以month_day为去重的标准,然后删除Value这一列
        pd_1 = pd.drop_duplicates(['month_day'])
        del (pd_1['Value'])
        list_2 = []
        for j in pd['month_day'].unique():
            list_2.append(pd[pd.month_day.isin([j])].Value.sum())
        pd_1 = pd_1.copy()
        pd_1['day_power'] = list_2  # 老是提示这句话用的不合要求,但是能用,我担心这里埋雷,后来加了上面那句copy
        list_1.append(pd_1.reset_index(drop=True))
    return list_1
Exemplo n.º 2
0
import matplotlib.pyplot as plt
 
###########################################################################
#주제 이전날짜 7일의 Open Hight Low Close의 값으로 내일의 Close가를 예측하는 모델이다.
###########################################################################
 
 
#날짜,컬럼개수,    볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격   볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격
col_Names=["time", "count", "v10", "p10","v9", "p9","v8", "p8","v7", "p7","v6", "p6","count2","v5", "p5","v4", "p4","v3", "p3","v2", "p2","v1", "p1"]
pd = pd.read_csv('/Users/songs/Downloads/MBMData/20210126/ETH.txt',names=col_Names)


#볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격   볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격,볼륨,가격
pd = pd[["v10", "p10","v9", "p9","v8", "p8","v7", "p7","v6", "p6","v5", "p5","v4", "p4","v3", "p3","v2", "p2","v1", "p1"]]
# pd = pd[["p10","p9","p8","p7","p6","p5","p4","p3","p2","p1"]]
pd = pd.drop_duplicates() #데이터량이 많기 때문에 중복 데이터를 제거 하자.
print(pd.info())

data = pd.values
train = data[:(len(data) - int(len(data)*0.1))]
test = data[:int(len(data)*0.1)]
  
transformer = MinMaxScaler()
train = transformer.fit_transform(train) #정규화(0~1)를 하기전에 표준편차를 하여 편차를 비슷하게 한후에 정규화(0~1)를 한다.
test = transformer.transform(test) #MinMax 정규화.

#window : 우리가 데이터를 바라보는 영역을 말한다. 0~window 길이만큼만 바라본다.
sequence_length = 60 #input 데이터는 7개의 값이 들어와야 한다. 즉 하나의 값으로 추측을 하지 않고 7개의 값을 묶어서 추측을 한다. 
window_length = sequence_length + 1
  
#train 데이터를 x,y로 분리 한다. x = 0~window_length, y = 마지막데이터. 
Exemplo n.º 3
0
def removeDuplicates(arr):
    for pd in arr:
        pd.drop_duplicates(keep=False, inplace=True)
    return arr