Python DataProcessor.process_data 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: data_processing

클래스/타입: DataProcessor

메소드/함수: process_data

hotexamples.com에서의 예제들: 2

Python DataProcessor.process_data - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 data_processing.DataProcessor.process_data에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DataProcessor(22)

saveResultToFile(5)

normalize(4)

denormalize(3)

get_train_test_data(3)

windowed_denormalize(3)

load(3)

windowed_normalize(3)

save(2)

get_dataframe_subset(2)

inverse_difference(2)

load_processed_data(2)

val_tokenzier(2)

plot(2)

difference(2)

process_data(2)

convert_array_to_np_array(2)

stop_print(1)

encode_hex_values(1)

train_tokenizer(1)

stop_store(1)

get_encoded_label_value(1)

stop(1)

start_store(1)

start_print(1)

get_examples(1)

complete_database_setup(1)

encode_ticket_hex_codes(1)

process_all_stats_for_year(1)

예제 #1

파일 보기

파일: random_forest_test.py 프로젝트: BHennen/cs4033-5033-fa2019

def load_rf_data(cur_path):
    data_folder = "data\\titanic"
    processed_data_folder = os.path.join(cur_path, data_folder)
    # Note: Not using test.csv as it does not provide whether or not the passenger survived; therefore we cannot assess
    #       how well the model performed.
    data_file_path = os.path.join(processed_data_folder, "train.csv")
    data = DataProcessor(data_file_path, processed_data_folder)

    try:
        #Try to load data
        data.load_processed_data()
    except FileNotFoundError:
        #No data found, so process it
        # 10% test, 10% validation, 80% training samples from data
        splits = (0.1, 0.1, 0.8)
        # Only use certain columns
        use_cols = (  # 0, #PassengerID
            1,  # Survived
            2,  # Pclass
            # 3, #Name
            4,  # Sex
            5,  # Age
            6,  # SibSp
            7,  # Parch
            # 8, #Ticket
            9,  # Fare
            # 10, #Cabin
            11,  # Embarked
        )
        # Mark features as categorical (so we can one-hot-encode them later)
        # categorical_cols = ()
        categorical_cols = (2,  # Pclass
                            4,  # Sex
                            11  # Embarked
                            )
        # Convert certain columns to float values (so we can use numpy arrays)
        converters = {4: lambda sex: {'male': 0.0, 'female': 1.0}[sex],
                      11: lambda embarked: {'S': 0.0, 'C': 1.0, 'Q': 2.0}[embarked]}
        data.process_data(splits=splits, use_cols=use_cols, categorical_cols=categorical_cols, converters=converters,
                          filter_missing=True)
    return data

예제 #2

파일 보기

                    # 8, #Ticket
                    9,  # Fare
                    # 10, #Cabin
                    # 11,  # Embarked
    )
    # Mark features as categorical (so we can one-hot-encode them later)
    # categorical_cols = ()
    categorical_cols = (2,  # Pclass
                        4,  # Sex
                        11  # Embarked
    )
    # Convert certain columns to float values (so we can use numpy arrays)
    converters = {4: lambda sex: {'male': 0.0, 'female': 1.0}[sex],
                  11: lambda embarked: {'S': 0.0, 'C': 1.0, 'Q': 2.0}[embarked]}
    filter_missing = True
    data_processor.process_data(splits=splits, use_cols=use_cols, categorical_cols=categorical_cols,
                                converters=converters, filter_missing=filter_missing)
if 'train' in sys.argv:
    # Extract training data, initialize neural network
    (train_x, train_y) = (data_processor.training_X, data_processor.training_y)
    train_y = np.array([[0, 1] if train_y[i] == 1 else [1, 0] for i in range(len(train_y))])
    (valid_x, valid_y) = (data_processor.validation_X, data_processor.validation_y)
    valid_y = np.array([[0, 1] if valid_y[i] == 1 else [1, 0] for i in range(len(valid_y))])
    if 'easydata' in sys.argv:
        train_x = np.array([[i/1000, 2*i/1000] for i in range(100)])
        train_y = np.array([(train_x[i][0] + train_x[i][1])/1000 for i in range(100)])
        valid_x, valid_y = train_x, train_y  # Note: validation is on training set for easy data
    print('Loading neural network...')

    # Set NN params
    input_dimension = len(train_x[0])
    output_dimension = len(train_y[0]) if isinstance(train_y[0], (str, list, tuple, np.ndarray)) else 1