def cargar_datos():
    caza = CazadorDeDatos()
    carpeta_ml = osjoin(path_datos_global, 'machine_learning')
    carpeta_st = osjoin(path_datos_global, 'statistics')
    data_ml, children_ml = caza.cargar_datos(carpeta_ml)
    data_st, children_st = caza.cargar_datos(carpeta_st)
    # Eliminamos links con prefijos malos
    data_ml = curate_links(data_ml)
    data_st = curate_links(data_st)
    return data_ml, children_ml, data_st, children_st
def aglomerar_data(cat_1, cat_2):
    caza = CazadorDeDatos()
    carpeta_1 = osjoin(path_datos_global, cat_1)
    carpeta_2 = osjoin(path_datos_global, cat_2)
    data_raw_1, children_1 = caza.cargar_datos(carpeta_1)

    #
    #    graphs_raw = data_to_graphs(data_raw)
    #    dates = list(graphs_raw.keys())
    #    # Un conjunto de categorías es el que se extrae directamente de data
    #    # Es un conjunto para cada snapshot
    #    sets_of_cats = curate_categories(get_setofcats(data_raw))
    #    # Otro conjunto es el que se extrae de children
    #    subcats = get_visited_subcats(children)
    #
    #    # Eliminamos links con prefijos malos
    #    data = curate_links(data_raw)
    #    graphs = data_to_graphs(data)
    return data_raw_1, children_1
Beispiel #3
0
from cazador import CazadorDeDatos
from generar_grafos import data_to_graphs, save_graphs

from utilities import (curate_links, get_setofcats, curate_categories)
from funciones_analisis import graph_summary
from category_enrichment import (get_visited_subcats, get_descendantsdict,
                                 print_common_descendants, enrich_history)

from clustering import calculate_infomap
from lsa import semantic_analysis, tune_LSA_dimension

import numpy as np
import matplotlib.pyplot as plt
plt.ion()

caza = CazadorDeDatos()
carpeta = osjoin(path_datos_global, 'machine_learning')
data_raw, children = caza.cargar_datos(carpeta)
graphs_raw = data_to_graphs(data_raw)
dates = list(graphs_raw.keys())
# Un conjunto de categorías es el que se extrae directamente de data
# Es un conjunto para cada snapshot
sets_of_cats = curate_categories(get_setofcats(data_raw))
# Otro conjunto es el que se extrae de children
subcats = get_visited_subcats(children)

# Eliminamos links con prefijos malos
data = curate_links(data_raw)
graphs = data_to_graphs(data)

# Enriquecemos con información sobre las categorías (esto puede tardar un poco)
from cazador import CazadorDeDatos

carpeta = r'C:\Users\chagu\Desktop\Matias\Redes\wikipedia-proyecto\neuroscience'
caza = CazadorDeDatos()
caza.get_cat_data('Category:Neuroscience', [
    '2015-10-01T12:00:00Z', '2016-10-01T12:00:00Z', '2017-10-01T12:00:00Z',
    '2018-10-01T12:00:00Z'
],
                  save_folder=carpeta,
                  retomar=caza.retomar(carpeta))
import requests
from cazador import CazadorDeDatos


def query_simple(pedido, language='en'):
    result = requests.get(
        'https://{}.wikipedia.org/w/api.php'.format(language), params=pedido)
    return result


# ### Pruebas sobre revisiones
caza = CazadorDeDatos()

pedido_antiguos = {
    'action': 'query',
    'format': 'json',
    'formatversion': 2,
    'redirects': '',

    #    'generator': 'categorymembers',
    #    'gcmtitle': 'Category:Ions',
    #    'gcmtype': 'page',

    #    'prop':'revisions',
    #    'rvprop': 'ids|timestamp',
    #    'rvlimit':'100',

    #   'list': 'categorymembers',
    # 'cmtype': 'page',
    #   'cmtitle': 'Category:Physics',
    # 'prop':'revisions',
Beispiel #6
0
    nodos_1 = list(data.keys())
    for nodos in nodos_1:

        nodos_2 = data[nodos]['links']

        for nodoss in nodos_2:
            par = []
            par.append(nodos)
            par.append(nodoss)
            pares_nodos.append(par)
    return pares_nodos


if __name__ == '__main__':
    test_get_cat_tree = False
    if test_get_cat_tree:
        # Inicializamos objeto
        caza = CazadorDeDatos()
        # Estructura de categorías no tan chica
        arbol, n_l = caza.get_cat_tree('Category:Ions')

        # Construimos el grafo
        edges = nestdict_to_edgelist(arbol)
        g = nx.DiGraph()
        g.add_edges_from(edges)
        plt.figure()
        nx.draw(g, with_labels=False, node_size=20)

        # Qué categorías pertenecen a más de una categoría madre?
        # Estas categorías rompen la estructura de árbol
        especiales = [cat for cat, in_deg in g.in_degree if in_deg >= 2]
from cazador import CazadorDeDatos

caza = CazadorDeDatos()
caza.get_cat_data('Category:Machine_learning',
                  ['2015-10-01T12:00:00Z',
                   '2016-10-01T12:00:00Z',
                   '2017-10-01T12:00:00Z',
                   '2018-10-01T12:00:00Z'],
                  save_folder=r'C:\Users\Gabo\Documents\Facultad\datos_wikipedia\machine_learning')