示例#1
0
if __name__ == '__main__':
    fb = Facebook()
    kb = KnowledgeBase()
    stemmer = Stemmer()
    text = "Jajajajaja valiente justicia alcahueta, a todos los políticos corruptos les están dando casa por cárcel, que vergüenza. Con razón tantos corruptos, saben que la justicia es laxa entonces llegan a un acuerdo se declaran culpables y les dan una mínima pena en su casa.👎👎👎👎👎 https://stackoverflow.com/questions/1276764/stripping-everything-but-alphanumeric-chars-from-a-string-in-python"
    """
    st = StanfordNERTagger('../base-conocimiento/nlp/stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz', #'../base-conocimiento/nlp/stanford-spanish-corenlp-2017-06-09-models.jar',
					   '../base-conocimiento/nlp/stanford-ner/stanford-ner.jar',
					   encoding='utf-8')
    words = nltk.word_tokenize(text)
    classified_text = st.tag(words)
    print(classified_text)
    """
    # Leer base de conocimiento
    palabras_corrupcion = kb.read_knowledge_base('../base-conocimiento/palabras-corrupcion.all.txt')
    casos_corrupcion = kb.read_knowledge_base('../base-conocimiento/casos-corrupcion.all.txt')
    instituciones = kb.read_knowledge_base('../base-conocimiento/instituciones.all.txt')
    lideres_opinion = kb.read_knowledge_base('../base-conocimiento/lideres-opinion.all.txt')
    partidos_politicos = kb.read_knowledge_base('../base-conocimiento/partidos-politicos.all.txt')

    # Convertir de dictionary a list con las regular expressions
    palabras_corrupcion = kb.get_words_as_list(palabras_corrupcion)
    casos_corrupcion = kb.get_words_as_list(casos_corrupcion)
    instituciones = kb.get_words_as_list(instituciones)
    lideres_opinion = kb.get_words_as_list(lideres_opinion)
    partidos_politicos = kb.get_words_as_list(partidos_politicos)
    
    # Queries para posts
    posts_queries = []
    posts_queries.append(fb.generate_regex_query(['message', 'name', 'description'], palabras_corrupcion))
示例#2
0
                   collocations=False,
                   width=1920,
                   height=800,
                   stopwords=stopwords)
    wc.generate(whole_text)
    img_path = path.join(home + "/workspace/sentinel/public/img/wordclouds/" +
                         str(now.year) + "-" + str(now.month) + "-" + page_id +
                         ".png")
    print(img_path)
    wc.to_file(img_path)
    #print("whole_text", whole_text)
    #print("results for", page_id, "=>", results)


if __name__ == '__main__':
    fb = Facebook()
    kb = KnowledgeBase()

    lideres_opinion = kb.read_knowledge_base(
        '../base-conocimiento/lideres-opinion.all.txt')
    config_file = "config.lideres.json"

    with open(home + '/workspace/facebook-scraper-py/' +
              config_file) as data_file:
        jsonConfig = json.load(data_file)

    if jsonConfig is not None:
        for p in jsonConfig['pages']:
            print("stopwords", p['stopwords'])
            generate_word_cloud(fb, str(p['id']), stopwords=p['stopwords'])