distributed_crawler with nutch

下载nutch git clone https://github.com/apache/nutch

切换版本 git checkout release-1.12 (Our change is based on Nutch 1.12) 这里的版本其实都已经存在的所以是不需要创建的。可以打git checkout 打tab'看看有哪些版本 Apply patch patch -p1 < ../week1/googleplaycrawler/googleplaycrawler.patch //注意这个是 1是数字1，不是字母l

打包jar ant job 在nutch目录下操作

进入docker container，打开hadoop。

生成seed文件 echo "https://play.google.com/store/apps/details?id=com.facebook.orca" > seed

local模式开始爬虫 hadoop jar build/apache-nutch-1.12.job org.apache.nutch.googleplay.GooglePlayCrawler -Dmapreduce.framework.name=local -Dfs.defaultFS=file:/// seed -numFetchers 10 -depth 2 在nutch文件夹下，因为你要运行的jar在build下面，build在nutch文件夹下 -numFetchers的意思是并行度 depth是抓取多少层

查看输出的结果输出的结果在nutc/nutchdb/segments/xxxxx/parse_data/part-0000x/data里面以二进制存储 find . -name data -exec ls -l {} ;

find the largest data file

一般情况下爬的东西很多都是乱七八糟的，你要的东西最有价值的就是size最大的文件 export HADOOP_CLASSPATH=/home/hadoop/src/nutch/build/apache-nutch-1.12.job 修改环境变量 hadoop fs -text file:///home/hadoop/src/nutch/nutchdb/segments/20180401233018/parse_data/part-00003/data 注意修成你的 20180401233018 以及你所需要的part

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
capstone/track1		capstone/track1
druid		druid
homework		homework
nutch		nutch
week1		week1
week2		week2
week3		week3
week4		week4
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

capstone/track1

capstone/track1

druid

druid

homework

homework

nutch

nutch

week1

week1

week2

week2

week3

week3

week4

week4

README.md

README.md

Repository files navigation

distributed_crawler with nutch

find the largest data file

About

Releases

Packages

Contributors 2

Languages

Fan4530/distributed_crawler

Folders and files

Latest commit

History

Repository files navigation

distributed_crawler with nutch

find the largest data file

About

Resources

Stars

Watchers

Forks

Languages