Python KMeans.get_sse_scoreの例

プログラミング言語: Python

名前空間/パッケージ名: k_means

クラス/型: KMeans

メソッド/関数: get_sse_score

hotexamples.comのコード掲載数: 1

Python KMeans.get_sse_score - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのk_means.KMeans.get_sse_scoreの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

KMeans(30)

fit(9)

cluster(7)

train(7)

run(6)

calculate_performance(4)

get_centroids(2)

print_results(2)

main_loop(2)

predict(2)

open_dataset(1)

k_means(1)

kmeans(1)

train_model(1)

print_distance(1)

plot_objective_function(1)

step(1)

initCentroids(1)

report(1)

run_k_means(1)

start(1)

init_centers(1)

get_clusters(1)

get_sse_score(1)

classify_centroids(1)

_get_initial_centroids(1)

_is_finish(1)

_squared_euclidian_dist(1)

_update_centroids_and_data(1)

calc_err(1)

calculate_sse(1)

centroids_find_closest(1)

cluster_points(1)

get_msc_avg(1)

compute_sse(1)

evaluate(1)

findClosestCentroids(1)

find_centers(1)

fit_predict(1)

get_cluster(1)

_choose_cluster(1)

update_k(1)

コード例 #1

ファイルを表示

def main(input_filepath, output_folder, k):
    """
    Receives the location of the tf-idf scores as a
    command-line Path argument.
    """
    logger = logging.getLogger(__name__)
    logger.info(
        'Training the K-Means clustering algorithm based on the TF-IDF scores')

    # Get the models/tf-idf-scores.csv file
    dataset = pd.read_csv(input_filepath)
    logger.info('Loaded data file ' + input_filepath + ' with ' +
                str(len(dataset)) + ' rows')

    # Removes the first column and formats it like a list
    x = dataset.drop(dataset.columns[0], axis=1).values
    vector_dict = generate_vector_dict(dataset)

    # Number of clusters and max. number of iterations
    km = KMeans(k=k, max_iterations=500)
    km.fit(x)
    clusters = km.get_clusters(vector_dict)

    # Based on the value of K used, change the destination filename
    filepath_list = (output_folder + MODEL_REPORT_FILENAME).rsplit('.', 1)
    output_filepath = filepath_list[0] + '-' + str(k) + '.' + filepath_list[1]

    # Calculate SSE and MSC
    sse_score = km.get_sse_score()
    logger.info('SSE Score: ' + str(sse_score))
    msc_score = km.get_msc_avg()
    logger.info('MSC Score: ' + str(msc_score))

    # Generate the results report
    generate_report(clusters, sse_score, msc_score, output_filepath)
    logger.info('Created report file on ' + output_filepath)

    # Generate / Update the results table for future plots
    if os.path.isfile(output_folder + PLOT_TABLE_FILENAME):
        # Update the existing file
        dataset = pd.read_csv(output_folder + PLOT_TABLE_FILENAME)
        dataset.set_index('K Size', inplace=True)
        k_means_results = update_plot_results_table(dataset,
                                                    (k, sse_score, msc_score))
    else:
        # Create and update the file
        dataset = create_plot_results_table()
        k_means_results = update_plot_results_table(dataset,
                                                    (k, sse_score, msc_score))
    k_means_results.to_csv(output_folder + PLOT_TABLE_FILENAME,
                           encoding='utf-8')
    logger.info('Updated report table on ' + output_folder +
                PLOT_TABLE_FILENAME)