Python get_data_set 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: preprocessing.preprocessing

메소드/함수: get_data_set

hotexamples.com에서의 예제들: 4

Python get_data_set - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 preprocessing.preprocessing.get_data_set에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: multinomial_NB.py 프로젝트: vladimir-siv/nlp-comment-classifier

def multinomial_nb(which_comments):
    print("=> Multinomial Bayes naive classifier")

    data_frame = pd.read_excel(r'preprocessed_data\all_comments.xlsx')

    sss = StratifiedShuffleSplit(n_splits=10, test_size=0.1)
    index = 1
    average = 0
    for train_index, test_index in sss.split(data_frame['Comment'],
                                             data_frame['Type']):
        preprocessing.preprocess_train_test_data(train_index, test_index)

        mnb = MultinomialNB()
        mnb.fit(preprocessing.get_data_set(), preprocessing.get_data_labels())
        score = f1_score(preprocessing.get_test_labels(),
                         mnb.predict(preprocessing.get_test_set()),
                         average='weighted')
        average = average + score

        print("Score {}.: {:.2f}%".format(index, score * 100), end=" ")
        if index == 5:
            print()
        index += 1

    print()
    print("Average: {:.2f}%".format(average / 10 * 100))

예제 #2

파일 보기

def compare_regularisation_functions(data_frame, rf, c=1.0):
    sss = StratifiedShuffleSplit(n_splits=10, test_size=0.1)
    index = 1
    average = 0
    for train_index, test_index in sss.split(data_frame['Comment'], data_frame['Type']):
        preprocessing.preprocess_train_test_data(train_index, test_index)

        if rf == 'l1':
            solver = 'saga'
        else:
            solver = 'lbfgs'

        lr = LogisticRegression(penalty=rf, C=c, solver=solver, max_iter=15000)
        lr.fit(preprocessing.get_data_set(), preprocessing.get_data_labels())
        score = f1_score(preprocessing.get_test_labels(), lr.predict(preprocessing.get_test_set()), average='weighted')

        average = average + score
        print("Score({}) {}.: {:.2f}%".format(rf.upper(), index, score * 100), end=" ")

        if index == 5:
            print()
        index += 1

    print()
    print("Average: {:.2f}%".format(average / 10 * 100))

예제 #3

파일 보기

def optimize_c_parameter():
    models_param = {
        'max_iter': [15000],
        'C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]
    }

    nested_cv_search = NestedCV(model=LogisticRegression(), params_grid=models_param,
                                outer_kfolds=5, inner_kfolds=5,
                                cv_options={'sqrt_of_score': True, 'randomized_search_iter': 30})

    nested_cv_search.fit(preprocessing.get_data_set(), preprocessing.get_data_labels())

    optimized_c_value = np.mean([d['C'] for d in nested_cv_search.best_inner_params_list])
    print("Optimized C: {:.3f}".format(optimized_c_value))

예제 #4

파일 보기

파일: SVC.py 프로젝트: vladimir-siv/nlp-comment-classifier

def compare_regularisation_functions(data_frame, rf, c=1):
    sss = StratifiedShuffleSplit(n_splits=10, test_size=0.1)
    index = 1
    average = 0
    for train_index, test_index in sss.split(data_frame['Comment'],
                                             data_frame['Type']):
        preprocessing.preprocess_train_test_data(train_index, test_index)

        svc = LinearSVC(penalty=rf, C=c, dual=rf == 'l2', max_iter=15000)
        svc.fit(preprocessing.get_data_set(), preprocessing.get_data_labels())
        score = f1_score(preprocessing.get_test_labels(),
                         svc.predict(preprocessing.get_test_set()),
                         average='weighted')

        average = average + score
        print("Score({}) {}.: {:.2f}%".format(rf.upper(), index, score * 100),
              end=" ")

        if index == 5:
            print()
        index += 1

    print()
    print("Average: {:.2f}%".format(average / 10 * 100))