def configura(): global dataset_dir global out global log global tweets_por_archivo global o global lg print_titulo("Configuraciones iniciales") files = os.listdir(dataset_dir) directorios = dict() acum = 1 for name in files: path = os.path.join(dataset_dir, name) if not(os.path.isfile(path)): directorios[acum] = name print "\t" + str(acum) + ") " + name acum+=1 #print f_json m=raw_input("Indique directorio a procesar " + dataset_dir + " : ") dataset_dir = os.path.join(dataset_dir, directorios[int(m)]) log1 = os.path.join(data_out_dir,log) #arcvhivo abierto para guardar errores print "Archivo con tweets erróneos: " + log1 #m=raw_input("...continuar") #abre log lg = codecs.open(log1, encoding='utf-8', mode='w') inicia_archivo() #inicia el primer archivo return dataset_dir
def iniciar(cwd): print_titulo("Elija el archivo a procesar, ENTER para todos") files = os.listdir(cwd) files.sort() #print type(files2) #print files2 acum = 0 f_json = dict() for name in files: if name[-5:] == ".json": acum+=1 f_json[acum] = name print "\t" + str(acum) + ") " + name #print f_json m=raw_input(": ") ac=1 if m == "" or m =="0": for file in f_json: aprocesar = cwd + "/" + f_json[int(file)] print_titulo("Procesando Archivo: " +str(ac)+ " " + aprocesar) procesa(aprocesar) ac+=1 else: aprocesar= cwd + "/" + f_json[int(m)] print "Procesando: " + aprocesar procesa(aprocesar)
def iniciar(cwd): print_titulo("Elija el archivo a procesar, ENTER para todos") files = os.listdir(cwd) files.sort() #print type(files2) #print files2 acum = 0 f_json = dict() for name in files: if name[-5:] == ".json": acum += 1 f_json[acum] = name print "\t" + str(acum) + ") " + name #print f_json m = raw_input(": ") ac = 1 if m == "" or m == "0": for file in f_json: aprocesar = cwd + "/" + f_json[int(file)] print_titulo("Procesando Archivo: " + str(ac) + " " + aprocesar) procesa(aprocesar) ac += 1 else: aprocesar = cwd + "/" + f_json[int(m)] print "Procesando: " + aprocesar procesa(aprocesar)
def configura(): global dataset_dir global out global log global tweets_por_archivo global o global lg print_titulo("Configuraciones iniciales") files = os.listdir(dataset_dir) directorios = dict() acum = 1 for name in files: path = os.path.join(dataset_dir, name) if not (os.path.isfile(path)): directorios[acum] = name print "\t" + str(acum) + ") " + name acum += 1 #print f_json m = raw_input("Indique directorio a procesar " + dataset_dir + " : ") dataset_dir = os.path.join(dataset_dir, directorios[int(m)]) log1 = os.path.join(data_out_dir, log) #arcvhivo abierto para guardar errores print "Archivo con tweets erróneos: " + log1 #m=raw_input("...continuar") #abre log lg = codecs.open(log1, encoding='utf-8', mode='w') inicia_archivo() #inicia el primer archivo return dataset_dir
# -*- coding: utf-8 -*- import json as json import codecs from utilitarios import print_titulo import os print_titulo('Procesar JSON de archivos Tweets') #VARIABLES DE CONFIGURACIÓN GLOBAL id=1 acum_error=1 dataset_dir="/home/davex/Escritorio/dataset/tweets" data_out_dir="/home/davex/Escritorio/procesados/" out = "salida" log= "errores.log" tweets_por_archivo= 172000 numero_archivo=1 acum_nuevo_archivo = 1 def procesa(file): global id global acum_error global out global log global tweets_por_archivo global acum_nuevo_archivo #se deben codificar a unicode utf-8 de lo contrario resultan errores con caracteres extraños f = codecs.open(file, encoding='utf-8', mode='r')
# -*- coding: utf-8 -*- import json as json import codecs from utilitarios import print_titulo import os print_titulo('Procesar JSON de archivos Tweets') #VARIABLES DE CONFIGURACIÓN GLOBAL id = 1 acum_error = 1 dataset_dir = "/home/davex/Escritorio/dataset" data_out_dir = "/home/davex/Escritorio/datosprcesadosjson" out = "salida" log = "errores.log" tweets_por_archivo = 172000 numero_archivo = 1 acum_nuevo_archivo = 1 usuarios = {} def procesa(file): global id global acum_error global out global log global tweets_por_archivo global acum_nuevo_archivo global usuarios #se deben codificar a unicode utf-8 de lo contrario resultan errores con caracteres extraños
# -*- coding: utf-8 -*- from curl import curl from getpass import getpass from string import strip import json as json import os from utilitarios import print_titulo print_titulo('Recolección de tweets') dir_out = '/home/davex/Descargas' log = os.path.join(dir_out, 'log') numero_archivo = 1 max_tweets = 10000 f_out = str(numero_archivo)+ ".json" file_out = os.path.join(dir_out, f_out) def crea_archivo(): global file_out global fout global acm global numero_archivo numero_archivo+=1 f_out = str(numero_archivo)+ ".json" file_out = os.path.join(dir_out, f_out) print "ARCHIVO A USAR: " + file_out fout = open(file_out,'a') acm = 1 #actualiza log lg = open(log, 'w') lg.write(str(numero_archivo))
from string import strip import json as json import os, re from utilitarios import print_titulo f=open('/home/davex/escritorio/dataset/tweets/textoparacorpus.txt') #funciona pero ineficiente # raw=''.join(l[:-1] for l in open('articulos/articulo'+str(i)+'.txt')) #html=f.read() #raw = nltk.clean_html(html) html=f.read() #************************************************* #***********Colectar documentos******************* #************************************************* print_titulo('Crear Archivos del Corpus') print 'Se dividira documentos con etiqueta NEWTWEET...' articles = re.split(r'<newtweet>',html) #articles = [nltk.clean_html(w) for w in articles] #print articles[930:931] tam=len(articles) print 'Cantidad de articulos a procesar: ' + str(len(articles)) print 'Creando documentos ...' #crear archivos de articulos i=0 j=0 sintitu=[] titulos=[] t='' voc=[]
# -*- coding: utf-8 -*- from curl2 import curl from getpass import getpass from string import strip import json as json import os from utilitarios import print_titulo 182 #con parametros directos user = "******" pwd = "" track = 'track-elecciones-independientes' print_titulo('Recolección de tweets Elecciones Independientes') dir_out = '/Users/miguelguevara/Documents/data/elecciones/independientes' log = os.path.join(dir_out, 'log') numero_archivo = 1 max_tweets = 10000 f_out = str(numero_archivo)+ ".json" file_out = os.path.join(dir_out, f_out) def crea_archivo(): global file_out global fout global acm global numero_archivo numero_archivo+=1 f_out = str(numero_archivo)+ ".json" file_out = os.path.join(dir_out, f_out)
# -*- coding: latin-1 -*- from curl import curl from getpass import getpass from string import strip import json as json from utilitarios import print_titulo print_titulo('Recolección de tweets') file_out = '/home/mguevara/datasets/tweets/19Jul.json' print "ARCHIVO A USAR: " + file_out #calcula tweets (lineas) en el archivo actual try: fout = open(file_out) acm = sum([1 for line in fout]) + 1 print "Archivo contiene actualmente: " + str(acm - 1) + " TWEETS" fout.close() except: print "El archivo aun no se ha creado, se creará" acm = 1 m = raw_input("...continuar") fout = open(file_out, 'a') ''' try: l_data = json.loads(response) #print l_data except ValueError: print "ERROR AL LEER FLUJO " '''
# -*- coding: utf-8 -*- from curl import curl from getpass import getpass from string import strip import json as json import os from utilitarios import print_titulo print_titulo('Recolección de tweets') dir_out = '/home/davex/Descargas' log = os.path.join(dir_out, 'log') numero_archivo = 1 max_tweets = 10000 f_out = str(numero_archivo) + ".json" file_out = os.path.join(dir_out, f_out) def crea_archivo(): global file_out global fout global acm global numero_archivo numero_archivo += 1 f_out = str(numero_archivo) + ".json" file_out = os.path.join(dir_out, f_out) print "ARCHIVO A USAR: " + file_out fout = open(file_out, 'a') acm = 1 #actualiza log lg = open(log, 'w')
# -*- coding: latin-1 -*- from curl import curl from getpass import getpass from string import strip import json as json from utilitarios import print_titulo print_titulo('Recolección de tweets') file_out = '/home/mguevara/datasets/tweets/19Jul.json' print "ARCHIVO A USAR: " + file_out #calcula tweets (lineas) en el archivo actual try: fout = open(file_out) acm = sum([1 for line in fout]) + 1 print "Archivo contiene actualmente: " + str(acm-1) + " TWEETS" fout.close() except: print "El archivo aun no se ha creado, se creará" acm = 1 m=raw_input("...continuar") fout = open(file_out,'a') ''' try: l_data = json.loads(response) #print l_data except ValueError: print "ERROR AL LEER FLUJO "
from string import strip import json as json import os, re from utilitarios import print_titulo f = open('/home/davex/escritorio/dataset/tweets/textoparacorpus.txt') #funciona pero ineficiente # raw=''.join(l[:-1] for l in open('articulos/articulo'+str(i)+'.txt')) #html=f.read() #raw = nltk.clean_html(html) html = f.read() #************************************************* #***********Colectar documentos******************* #************************************************* print_titulo('Crear Archivos del Corpus') print 'Se dividira documentos con etiqueta NEWTWEET...' articles = re.split(r'<newtweet>', html) #articles = [nltk.clean_html(w) for w in articles] #print articles[930:931] tam = len(articles) print 'Cantidad de articulos a procesar: ' + str(len(articles)) print 'Creando documentos ...' #crear archivos de articulos i = 0 j = 0 sintitu = [] titulos = [] t = '' voc = []
# -*- coding: utf-8 -*- from curl import curl from getpass import getpass from string import strip import codecs import json as json import os from utilitarios import print_titulo print_titulo('Obtencion de datos para grafo de usuarios') dir_out="/home/mguevara/datasets/tweetscontinuossolotexto" users_file="/home/mguevara/datasets/tweetscontinuossolotexto/Usuarios2.csv" #log = os.path.join(dir_out, 'log') numero_archivo = 1 max_usuarios = 2 f_out = str(numero_archivo)+ ".csv" file_out = os.path.join(dir_out, f_out) id_usuario=221441490 def crea_archivo(): global file_out global fout global acm global numero_archivo numero_archivo+=1 f_out = str(numero_archivo)+ ".csv" file_out = os.path.join(dir_out, f_out) print "ARCHIVO A USAR: " + file_out fout = open(file_out,'w')
# -*- coding: utf-8 -*- from curl import curl from getpass import getpass from string import strip import codecs import json as json import os from utilitarios import print_titulo print_titulo('Obtencion de datos para grafo de usuarios') dir_out = "/home/mguevara/datasets/tweetscontinuossolotexto" users_file = "/home/mguevara/datasets/tweetscontinuossolotexto/Usuarios2.csv" #log = os.path.join(dir_out, 'log') numero_archivo = 1 max_usuarios = 2 f_out = str(numero_archivo) + ".csv" file_out = os.path.join(dir_out, f_out) id_usuario = 221441490 def crea_archivo(): global file_out global fout global acm global numero_archivo numero_archivo += 1 f_out = str(numero_archivo) + ".csv" file_out = os.path.join(dir_out, f_out) print "ARCHIVO A USAR: " + file_out