Skip to content

emagno-labs/MrCrawler

Repository files navigation

MR. CRAWLER

O MR. CRAWLER é um projeto desenvolvido na disciplina de Projetos Interativos (PI) do 4o Período do curso de Bacharelado de Ciências da Computação do Senac-SP.

Status do projeto: implementação das rotinas de análise

Escopo

O Mr. Crawler irá capturar todos os tweets em tempo real (stream) ou da base histórica (search) que satisfaçam um determinado termo fornecido. Para realizar a coleta e análise é necessário que o usuário tenha uma conta ativa do Twitter, com a qual ele deverá autorizar o Mr. Crawler acessar sua conta.

Após a captura serão exibidos resultados derivados das diferentes análises realizadas:

  • Frequencia de palavras;
  • Diversidade léxica;
  • Entidades mais frequentes;
  • Diversidade e frequencia da origem dos tweets;
  • Top usuários mais influentes (mais seguidores, menos interatividade);
  • Top usuários mais ativos (menos seguidores, mais interatividade);
  • Proporção entre tweets geolocalizados e os não-geolocalizados;

Planejados e desejáveis:

  • Mapa de tweets geolocalizados;
  • Relacionamentos entre os participantes;
  • Tweets com maior número de retweets;

Rodando o Mr. Crawler

Faça um clone do Mr. Crawler:

git clone https://github.com/eryckson/MrCrawler.git

Para rodar o Mr. Crawler localmente é necessário ter o Python na versão 3.3.2 e também os seguintes frameworks:

pip install Flask Jinja2 SQLAlchemy beautifulsoup4 html5lib lxml requests simplejson tornado twitter

Depois precisamos iniciar a aplicação:

python MrCrawler.py --logging=debug

e ele estará respondendo em

http://localhost:8080

Para aprender Python


SE EM TUDO O MAIS FOREM IDÊNTICAS AS VÁRIAS EXPLICAÇÕES DE UM FENÔMENO, A MAIS SIMPLES É A MELHOR" — WILLIAM DE OCKHAM


Autores do projeto: [Hamilton Santana] 1, [Ivan Probst] 2, [Lucas Ribeiro] 3 e [Eryckson Magno] 4.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published