st = StanfordNERTagger('../base-conocimiento/nlp/stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz', #'../base-conocimiento/nlp/stanford-spanish-corenlp-2017-06-09-models.jar', '../base-conocimiento/nlp/stanford-ner/stanford-ner.jar', encoding='utf-8') words = nltk.word_tokenize(text) classified_text = st.tag(words) print(classified_text) """ # Leer base de conocimiento palabras_corrupcion = kb.read_knowledge_base('../base-conocimiento/palabras-corrupcion.all.txt') casos_corrupcion = kb.read_knowledge_base('../base-conocimiento/casos-corrupcion.all.txt') instituciones = kb.read_knowledge_base('../base-conocimiento/instituciones.all.txt') lideres_opinion = kb.read_knowledge_base('../base-conocimiento/lideres-opinion.all.txt') partidos_politicos = kb.read_knowledge_base('../base-conocimiento/partidos-politicos.all.txt') # Convertir de dictionary a list con las regular expressions palabras_corrupcion = kb.get_words_as_list(palabras_corrupcion) casos_corrupcion = kb.get_words_as_list(casos_corrupcion) instituciones = kb.get_words_as_list(instituciones) lideres_opinion = kb.get_words_as_list(lideres_opinion) partidos_politicos = kb.get_words_as_list(partidos_politicos) # Queries para posts posts_queries = [] posts_queries.append(fb.generate_regex_query(['message', 'name', 'description'], palabras_corrupcion)) posts_queries.append(fb.generate_regex_query(['message', 'name', 'description'], casos_corrupcion)) posts_queries.append(fb.generate_regex_query(['message', 'name', 'description'], instituciones)) posts_queries.append(fb.generate_regex_query(['message', 'name', 'description'], lideres_opinion)) posts_queries.append(fb.generate_regex_query(['message', 'name', 'description'], partidos_politicos)) # Queries para comments comments_queries = []
import pymongo from enum import Enum import csv import datetime from knowledge_base import KnowledgeBase from model import Facebook import re import numpy as np if __name__ == '__main__': fb = Facebook() kb = KnowledgeBase() lideres_opinion = kb.read_knowledge_base( '../base-conocimiento/lideres-opinion.all.txt') lideres_opinion = kb.get_words_as_list(lideres_opinion) query_posts_lideres = fb.generate_regex_query(['message'], lideres_opinion) res = fb.query('comments', query_posts_lideres) for r in res: if 'message' in r: r['message'] = re.sub(r"\s", " ", r['message']) random_list = np.random.choice(res, 200, replace=False) with open('comments_polarity.csv', 'w', newline='') as csvfile: csvwriter = csv.writer(csvfile, delimiter=',') csvwriter.writerow(['comentario', 'polaridad']) for r in random_list: