-
Notifications
You must be signed in to change notification settings - Fork 0
/
main.py
executable file
·64 lines (56 loc) · 2.56 KB
/
main.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
# -*- coding: utf-8 -*-
__author__ = 'Juan David Carrillo López'
from ngram import NGram
from TwitterAPI import TwitterAPI
from nltk import word_tokenize
import numpy as np
from lenguaje import contarvocales
from codigoaritm import *
from utiles import leerarchivo
if __name__ == '__main__':
muestreo = leerarchivo('resources/muestreo_caracteres.txt')
frecuencia_total = float(muestreo[len(muestreo)-1].split(':')[1])
muestreo = muestreo[1:len(muestreo)-1]
muestreo = np.array([par.split(' | ') for par in muestreo])
alfabeto = muestreo[:, 0].ravel()
probabilidades = muestreo[:, 1].ravel()
alfabeto = ' | '.join(alfabeto)
probabilidades = ' | '.join([str(int(i)/frecuencia_total) for i in probabilidades])
muestreo = leerarchivo('resources/lexico.txt')
lexico = [par.split(',') for par in muestreo]
consumer_key = 'kxfJjFCXjkRySLkW2aHGeAXxN'
consumer_secret = 'VKalY6au6029H5uqo63VHH1VWcYwaBmlJ36EPulYUBmThyvDUi'
access_key = '1576798795-MJcRA8Yu8nfgDWbIQjshgio6bOoBCBOGZbSOF06'
access_secret = 'jPVa8ELVIDT2StlNJvts6UmZASllsliVdvHg7VikT88ew'
api = TwitterAPI(consumer_key, consumer_secret, access_key, access_secret)
respuesta = api.request('search/tweets', {'q': 'abarca', 'count': '100', 'lang': 'es'})
muestreo = []
for item in respuesta.get_iterator():
texto = item['text'].encode('latin-1', 'ignore')
muestreo.append(texto.decode('latin-1'))
try:
inst = CodigoAritm(alfabeto, probabilidades)
except SimbProbsError as e:
print(e)
except ItemVacioError as e:
print(e)
else:
mensajes = tuple(muestreo)
for mensaje in mensajes:
caracteres = NGram(mensaje.split(' '))
try:
print('\nEntropía de \'{0}\': {1} \nTotal de vocales: {2} \t Total de palabras: {3}'
.format(mensaje, str(inst.entropiadelmensaje(mensaje)), contarvocales(mensaje),
len(word_tokenize(mensaje))))
inst.precodmsj(mensaje+'~')
except ExistSimbError as e:
print('{0} \t Ignorando mensaje'.format(e))
else:
for palabrota in lexico:
minusculas = palabrota[0].lower()
query = caracteres.search(minusculas)
coincidencias = [match for match in query if match[1] > 0.29]
if len(coincidencias) > 0:
print('\tBuscando >> {0}: {1}'.format(minusculas, coincidencias[0]))
finally:
print('\nTerminando ejecución del programa...')