def configura():
	global dataset_dir
	global out
	global log
	global tweets_por_archivo
	global o
	global lg

	print_titulo("Configuraciones iniciales")
	files = os.listdir(dataset_dir)	
	directorios = dict()	
	acum = 1
	for name in files:
	    path = os.path.join(dataset_dir, name)
	    if not(os.path.isfile(path)):
		directorios[acum] = name	
		print "\t" + str(acum) + ") " + name	
		acum+=1
	#print f_json

	m=raw_input("Indique directorio a procesar " + dataset_dir + " : ")
	dataset_dir = os.path.join(dataset_dir, directorios[int(m)])

	log1 = os.path.join(data_out_dir,log) #arcvhivo abierto para guardar errores	
	print "Archivo con tweets erróneos: " + log1
	#m=raw_input("...continuar")
	
	#abre log
	lg = codecs.open(log1, encoding='utf-8', mode='w')
	inicia_archivo() #inicia el primer archivo	
	
	return 	dataset_dir
def iniciar(cwd):
	print_titulo("Elija el archivo a procesar, ENTER para todos")
	files = os.listdir(cwd)
	files.sort()
	#print type(files2)
	#print files2
	acum = 0
	f_json = dict()

	for name in files:
	    if name[-5:] == ".json":	
		acum+=1
		f_json[acum] = name	
		print "\t" + str(acum) + ") " + name	
	#print f_json
	m=raw_input(": ")
	ac=1
	if m == "" or m =="0":
	    for file in f_json:
		aprocesar = cwd + "/" + f_json[int(file)]
		print_titulo("Procesando Archivo: " +str(ac)+ " " + aprocesar)
		procesa(aprocesar)
		ac+=1
	
	else:
	    aprocesar= cwd + "/" + f_json[int(m)]
	    print "Procesando: " + aprocesar
	    procesa(aprocesar)
예제 #3
0
def iniciar(cwd):
    print_titulo("Elija el archivo a procesar, ENTER para todos")
    files = os.listdir(cwd)
    files.sort()
    #print type(files2)
    #print files2
    acum = 0
    f_json = dict()

    for name in files:
        if name[-5:] == ".json":
            acum += 1
            f_json[acum] = name
            print "\t" + str(acum) + ") " + name
    #print f_json
    m = raw_input(": ")
    ac = 1
    if m == "" or m == "0":
        for file in f_json:
            aprocesar = cwd + "/" + f_json[int(file)]
            print_titulo("Procesando Archivo: " + str(ac) + " " + aprocesar)
            procesa(aprocesar)
            ac += 1

    else:
        aprocesar = cwd + "/" + f_json[int(m)]
        print "Procesando: " + aprocesar
        procesa(aprocesar)
예제 #4
0
def configura():
    global dataset_dir
    global out
    global log
    global tweets_por_archivo
    global o
    global lg

    print_titulo("Configuraciones iniciales")
    files = os.listdir(dataset_dir)
    directorios = dict()
    acum = 1
    for name in files:
        path = os.path.join(dataset_dir, name)
        if not (os.path.isfile(path)):
            directorios[acum] = name
            print "\t" + str(acum) + ") " + name
            acum += 1
    #print f_json

    m = raw_input("Indique directorio a procesar " + dataset_dir + " : ")
    dataset_dir = os.path.join(dataset_dir, directorios[int(m)])

    log1 = os.path.join(data_out_dir,
                        log)  #arcvhivo abierto para guardar errores
    print "Archivo con tweets erróneos: " + log1
    #m=raw_input("...continuar")

    #abre log
    lg = codecs.open(log1, encoding='utf-8', mode='w')
    inicia_archivo()  #inicia el primer archivo

    return dataset_dir
# -*- coding: utf-8 -*-
import json as json
import codecs
from utilitarios import print_titulo
import os

print_titulo('Procesar JSON de archivos Tweets')

#VARIABLES DE CONFIGURACIÓN GLOBAL
id=1
acum_error=1
dataset_dir="/home/davex/Escritorio/dataset/tweets"
data_out_dir="/home/davex/Escritorio/procesados/"

out = "salida"
log= "errores.log"
tweets_por_archivo= 172000
numero_archivo=1
acum_nuevo_archivo = 1

def procesa(file):
	global id
	global acum_error	
	global out
	global log	
	global tweets_por_archivo
	global acum_nuevo_archivo
	#se deben codificar a unicode utf-8 de lo contrario resultan errores con caracteres extraños
	f = codecs.open(file, encoding='utf-8', mode='r')
	
	
예제 #6
0
# -*- coding: utf-8 -*-
import json as json
import codecs
from utilitarios import print_titulo
import os

print_titulo('Procesar JSON de archivos Tweets')

#VARIABLES DE CONFIGURACIÓN GLOBAL
id = 1
acum_error = 1
dataset_dir = "/home/davex/Escritorio/dataset"
data_out_dir = "/home/davex/Escritorio/datosprcesadosjson"

out = "salida"
log = "errores.log"
tweets_por_archivo = 172000
numero_archivo = 1
acum_nuevo_archivo = 1
usuarios = {}


def procesa(file):
    global id
    global acum_error
    global out
    global log
    global tweets_por_archivo
    global acum_nuevo_archivo
    global usuarios
    #se deben codificar a unicode utf-8 de lo contrario resultan errores con caracteres extraños
# -*- coding: utf-8 -*-
from curl import curl
from getpass import getpass
from string import strip
import json as json
import os
from utilitarios import print_titulo

print_titulo('Recolección de tweets')
dir_out = '/home/davex/Descargas'
log = os.path.join(dir_out, 'log')
numero_archivo = 1
max_tweets = 10000
f_out = str(numero_archivo)+ ".json"
file_out = os.path.join(dir_out, f_out)

def crea_archivo():
    global file_out
    global fout
    global acm
    global numero_archivo

    numero_archivo+=1
    f_out = str(numero_archivo)+ ".json"
    file_out = os.path.join(dir_out, f_out)
    print "ARCHIVO A USAR: " + file_out
    fout = open(file_out,'a')
    acm = 1
    #actualiza log
    lg = open(log, 'w')
    lg.write(str(numero_archivo))
from string import strip
import json as json
import os, re
from utilitarios import print_titulo

f=open('/home/davex/escritorio/dataset/tweets/textoparacorpus.txt')
	#funciona pero ineficiente
	# raw=''.join(l[:-1] for l in open('articulos/articulo'+str(i)+'.txt'))
#html=f.read()
#raw = nltk.clean_html(html)
html=f.read()

#*************************************************
#***********Colectar documentos*******************
#*************************************************
print_titulo('Crear Archivos del Corpus')
print 'Se dividira documentos con etiqueta NEWTWEET...'
articles = re.split(r'<newtweet>',html)
#articles = [nltk.clean_html(w) for w in articles]
#print articles[930:931]
tam=len(articles)
print 'Cantidad de articulos a procesar: ' + str(len(articles))
print 'Creando documentos ...'

#crear archivos de articulos
i=0
j=0
sintitu=[]
titulos=[]
t=''
voc=[]
# -*- coding: utf-8 -*-
from curl2 import curl
from getpass import getpass
from string import strip
import json as json
import os
from utilitarios import print_titulo
182
#con parametros directos
user = "******"
pwd = ""
track = 'track-elecciones-independientes'


print_titulo('Recolección de tweets Elecciones Independientes')
dir_out = '/Users/miguelguevara/Documents/data/elecciones/independientes' 
log = os.path.join(dir_out, 'log')
numero_archivo = 1
max_tweets = 10000
f_out = str(numero_archivo)+ ".json"
file_out = os.path.join(dir_out, f_out)

def crea_archivo():
    global file_out
    global fout
    global acm
    global numero_archivo
     
    numero_archivo+=1
    f_out = str(numero_archivo)+ ".json"
    file_out = os.path.join(dir_out, f_out)
# -*- coding: latin-1 -*-
from curl import curl
from getpass import getpass
from string import strip
import json as json
from utilitarios import print_titulo

print_titulo('Recolección de tweets')
file_out = '/home/mguevara/datasets/tweets/19Jul.json'
print "ARCHIVO A USAR: " + file_out
#calcula tweets (lineas) en el archivo actual
try:
    fout = open(file_out)
    acm = sum([1 for line in fout]) + 1
    print "Archivo contiene actualmente: " + str(acm - 1) + " TWEETS"
    fout.close()
except:
    print "El archivo aun no se ha creado, se creará"
    acm = 1

m = raw_input("...continuar")

fout = open(file_out, 'a')
'''
	try:
		l_data = json.loads(response)
		#print l_data
	except ValueError:
		print "ERROR AL LEER FLUJO "
'''
예제 #11
0
# -*- coding: utf-8 -*-
from curl import curl
from getpass import getpass
from string import strip
import json as json
import os
from utilitarios import print_titulo

print_titulo('Recolección de tweets')
dir_out = '/home/davex/Descargas'
log = os.path.join(dir_out, 'log')
numero_archivo = 1
max_tweets = 10000
f_out = str(numero_archivo) + ".json"
file_out = os.path.join(dir_out, f_out)


def crea_archivo():
    global file_out
    global fout
    global acm
    global numero_archivo

    numero_archivo += 1
    f_out = str(numero_archivo) + ".json"
    file_out = os.path.join(dir_out, f_out)
    print "ARCHIVO A USAR: " + file_out
    fout = open(file_out, 'a')
    acm = 1
    #actualiza log
    lg = open(log, 'w')
# -*- coding: latin-1 -*-
from curl import curl
from getpass import getpass
from string import strip
import json as json
from utilitarios import print_titulo


print_titulo('Recolección de tweets')
file_out = '/home/mguevara/datasets/tweets/19Jul.json'
print "ARCHIVO A USAR: " + file_out
#calcula tweets (lineas) en el archivo actual
try:
	fout = open(file_out)
	acm = sum([1 for line in fout]) + 1
	print "Archivo contiene actualmente: " + str(acm-1) + " TWEETS"
	fout.close()
except:
	print "El archivo aun no se ha creado, se creará"
	acm = 1

m=raw_input("...continuar")

fout = open(file_out,'a')
             
'''
	try:
		l_data = json.loads(response)
		#print l_data
	except ValueError:
		print "ERROR AL LEER FLUJO "
예제 #13
0
from string import strip
import json as json
import os, re
from utilitarios import print_titulo

f = open('/home/davex/escritorio/dataset/tweets/textoparacorpus.txt')
#funciona pero ineficiente
# raw=''.join(l[:-1] for l in open('articulos/articulo'+str(i)+'.txt'))
#html=f.read()
#raw = nltk.clean_html(html)
html = f.read()

#*************************************************
#***********Colectar documentos*******************
#*************************************************
print_titulo('Crear Archivos del Corpus')
print 'Se dividira documentos con etiqueta NEWTWEET...'
articles = re.split(r'<newtweet>', html)
#articles = [nltk.clean_html(w) for w in articles]
#print articles[930:931]
tam = len(articles)
print 'Cantidad de articulos a procesar: ' + str(len(articles))
print 'Creando documentos ...'

#crear archivos de articulos
i = 0
j = 0
sintitu = []
titulos = []
t = ''
voc = []
# -*- coding: utf-8 -*-
from curl import curl
from getpass import getpass
from string import strip
import codecs
import json as json
import os
from utilitarios import print_titulo

print_titulo('Obtencion de datos para grafo de usuarios')
dir_out="/home/mguevara/datasets/tweetscontinuossolotexto"
users_file="/home/mguevara/datasets/tweetscontinuossolotexto/Usuarios2.csv"

#log = os.path.join(dir_out, 'log')
numero_archivo = 1
max_usuarios = 2
f_out = str(numero_archivo)+ ".csv"
file_out = os.path.join(dir_out, f_out)
id_usuario=221441490

def crea_archivo():
    global file_out
    global fout
    global acm
    global numero_archivo
     
    numero_archivo+=1
    f_out = str(numero_archivo)+ ".csv"
    file_out = os.path.join(dir_out, f_out)
    print "ARCHIVO A USAR: " + file_out
    fout = open(file_out,'w')
# -*- coding: utf-8 -*-
from curl import curl
from getpass import getpass
from string import strip
import codecs
import json as json
import os
from utilitarios import print_titulo

print_titulo('Obtencion de datos para grafo de usuarios')
dir_out = "/home/mguevara/datasets/tweetscontinuossolotexto"
users_file = "/home/mguevara/datasets/tweetscontinuossolotexto/Usuarios2.csv"

#log = os.path.join(dir_out, 'log')
numero_archivo = 1
max_usuarios = 2
f_out = str(numero_archivo) + ".csv"
file_out = os.path.join(dir_out, f_out)
id_usuario = 221441490


def crea_archivo():
    global file_out
    global fout
    global acm
    global numero_archivo

    numero_archivo += 1
    f_out = str(numero_archivo) + ".csv"
    file_out = os.path.join(dir_out, f_out)
    print "ARCHIVO A USAR: " + file_out