def cargar_datos():
    caza = CazadorDeDatos()
    carpeta_ml = osjoin(path_datos_global, 'machine_learning')
    carpeta_st = osjoin(path_datos_global, 'statistics')
    data_ml, children_ml = caza.cargar_datos(carpeta_ml)
    data_st, children_st = caza.cargar_datos(carpeta_st)
    # Eliminamos links con prefijos malos
    data_ml = curate_links(data_ml)
    data_st = curate_links(data_st)
    return data_ml, children_ml, data_st, children_st
Exemplo n.º 2
0
def aglomerar_data(cat_1, cat_2):
    caza = CazadorDeDatos()
    carpeta_1 = osjoin(path_datos_global, cat_1)
    carpeta_2 = osjoin(path_datos_global, cat_2)
    data_raw_1, children_1 = caza.cargar_datos(carpeta_1)

    #
    #    graphs_raw = data_to_graphs(data_raw)
    #    dates = list(graphs_raw.keys())
    #    # Un conjunto de categorías es el que se extrae directamente de data
    #    # Es un conjunto para cada snapshot
    #    sets_of_cats = curate_categories(get_setofcats(data_raw))
    #    # Otro conjunto es el que se extrae de children
    #    subcats = get_visited_subcats(children)
    #
    #    # Eliminamos links con prefijos malos
    #    data = curate_links(data_raw)
    #    graphs = data_to_graphs(data)
    return data_raw_1, children_1
Exemplo n.º 3
0
from cazador import CazadorDeDatos
from generar_grafos import data_to_graphs, save_graphs

from utilities import (curate_links, get_setofcats, curate_categories)
from funciones_analisis import graph_summary
from category_enrichment import (get_visited_subcats, get_descendantsdict,
                                 print_common_descendants, enrich_history)

from clustering import calculate_infomap
from lsa import semantic_analysis, tune_LSA_dimension

import numpy as np
import matplotlib.pyplot as plt
plt.ion()

caza = CazadorDeDatos()
carpeta = osjoin(path_datos_global, 'machine_learning')
data_raw, children = caza.cargar_datos(carpeta)
graphs_raw = data_to_graphs(data_raw)
dates = list(graphs_raw.keys())
# Un conjunto de categorías es el que se extrae directamente de data
# Es un conjunto para cada snapshot
sets_of_cats = curate_categories(get_setofcats(data_raw))
# Otro conjunto es el que se extrae de children
subcats = get_visited_subcats(children)

# Eliminamos links con prefijos malos
data = curate_links(data_raw)
graphs = data_to_graphs(data)

# Enriquecemos con información sobre las categorías (esto puede tardar un poco)