Repositorio para a disciplina 2017 Mapreduce
Compreender a desenvolvimento de soluções baseada em MapReduce com Java, Hive, Pig, Spark
- Algoritmos por map-reduce para grandes volumes de dados.
- Apache Haddop e o EcoSistema.
- Introdução a Programação de mapreduce com Hive,Pig.
Os trabalhos deverão ser realizados em duplas (desenvolvedor + cientista/analista).
- Trabalho escrito (peso 50%)
- Pesquisa de melhores links a serem estudados do seu interesse que seja relevante a disciplina
- Entrega dos trabalhos escritos por commit no git ou email (dados dos alunos devem estar completos)
- Avaliação : será pontualidade na entrega, quantidade erros encontrados
- Trabalho de mapreduce (peso 50%)
- Elaboração de alguma sugestão de análise.
- Entrega dos mapreduce com código fontes, binários e orientação de execução.
- Entrega dos arquivos com os resultados da execução
Aqui você encontrar a base de dados para os exercícios
- Livros: https://dl.dropboxusercontent.com/u/10599684/pos-bigdata/lit2go.ok.tar.gz
- Legendas: https://dl.dropboxusercontent.com/u/10599684/pos-bigdata/series.rar
Vamos desenvolver alguns exercícios que valerão nota. Alguns exemplos de exercícios a serem entregues.
- Contar todas as ocorrências de palavras ( removendo as preposições e coisas assim)
- Andre-Fernado (Conversao de html)
- MarcoEstevam-Anderson
- Contar palavras por livro
- Ricardo-miriam-Silvio
- Camila e micheli
- Fornecer uma palavra e mostrar em que arquivos encontramos a palavra.
- Jan
- Fornecer uma palavra e mostrar em que arquivos encontramos a palavra e a quantidade de corregências.
- Encontrar as 1.500 palavras mais usadas em todo os livros.
- Encontrar as 1500 palavras mais usadas em 1 determinado livro.
- Cristiane-Tiyomi
- Marco-Everton
- Encontrar as 1500 palavras menos usadas em 1 em toda a base.
- Cristiano-Gilmar
- Encontrar o vocabulário comum de 1.500 palavras entre 2 livros
- Joceir-JoseRodrigues
- Adriano-Andrematsuda
- Encontrar o vocabulário de palavras diferente entre 2 livros removendo as palavras que forem encontradas nos dois livros.
- Lucas
- Deverão ser feitas dentro do diretorio /Entregas/Aluno1-aluno2
- O redmi deverá ter uma explicacao de como executar programa.
Professor Alessandro de Oliveira Binhara