if __name__ == '__main__': fb = Facebook() kb = KnowledgeBase() stemmer = Stemmer() text = "Jajajajaja valiente justicia alcahueta, a todos los políticos corruptos les están dando casa por cárcel, que vergüenza. Con razón tantos corruptos, saben que la justicia es laxa entonces llegan a un acuerdo se declaran culpables y les dan una mínima pena en su casa.👎👎👎👎👎 https://stackoverflow.com/questions/1276764/stripping-everything-but-alphanumeric-chars-from-a-string-in-python" """ st = StanfordNERTagger('../base-conocimiento/nlp/stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz', #'../base-conocimiento/nlp/stanford-spanish-corenlp-2017-06-09-models.jar', '../base-conocimiento/nlp/stanford-ner/stanford-ner.jar', encoding='utf-8') words = nltk.word_tokenize(text) classified_text = st.tag(words) print(classified_text) """ # Leer base de conocimiento palabras_corrupcion = kb.read_knowledge_base('../base-conocimiento/palabras-corrupcion.all.txt') casos_corrupcion = kb.read_knowledge_base('../base-conocimiento/casos-corrupcion.all.txt') instituciones = kb.read_knowledge_base('../base-conocimiento/instituciones.all.txt') lideres_opinion = kb.read_knowledge_base('../base-conocimiento/lideres-opinion.all.txt') partidos_politicos = kb.read_knowledge_base('../base-conocimiento/partidos-politicos.all.txt') # Convertir de dictionary a list con las regular expressions palabras_corrupcion = kb.get_words_as_list(palabras_corrupcion) casos_corrupcion = kb.get_words_as_list(casos_corrupcion) instituciones = kb.get_words_as_list(instituciones) lideres_opinion = kb.get_words_as_list(lideres_opinion) partidos_politicos = kb.get_words_as_list(partidos_politicos) # Queries para posts posts_queries = [] posts_queries.append(fb.generate_regex_query(['message', 'name', 'description'], palabras_corrupcion))
collocations=False, width=1920, height=800, stopwords=stopwords) wc.generate(whole_text) img_path = path.join(home + "/workspace/sentinel/public/img/wordclouds/" + str(now.year) + "-" + str(now.month) + "-" + page_id + ".png") print(img_path) wc.to_file(img_path) #print("whole_text", whole_text) #print("results for", page_id, "=>", results) if __name__ == '__main__': fb = Facebook() kb = KnowledgeBase() lideres_opinion = kb.read_knowledge_base( '../base-conocimiento/lideres-opinion.all.txt') config_file = "config.lideres.json" with open(home + '/workspace/facebook-scraper-py/' + config_file) as data_file: jsonConfig = json.load(data_file) if jsonConfig is not None: for p in jsonConfig['pages']: print("stopwords", p['stopwords']) generate_word_cloud(fb, str(p['id']), stopwords=p['stopwords'])