museum-news-spider

其中以上依赖可在项目目录下执行pip install -r requirements.txt安装，py2与py3并存时，请用pip3 install -r requirements.txt

同时需要下载firefox_webdriver，请在https://github.com/mozilla/geckodriver/releases下载相应版本

MainProgram.py为主运行程序
本系统在爬去新闻链接部分（即URLSpider和URLSpider2）采用的数据存储方式为，存储到本地的txt文本格式。
在抓取新闻文本及其详细信息部分（即GetNewData），采取的是将数据存入到数据库的方式，数据库的连接方式可在config.ini中配置。（声明：在系统中我并没有对数据库部分代码进行重构，所以略显繁重，不过不影响使用。）另外，在使用这一部分的时候，需要自己事先在本地数据库建表（偷懒了-_-）,表结构如下

在URLSpider中采用了IP代理的方法，但是使用的IP池是免费IP池，稳定性不是很好，所以若网络出现问题，请多试几遍即可
系统有按一定时间范围内爬取新闻的功能，默认关闭，如需要使用，可在config.ini中的timelimit开启，limit以年为单位
新闻内容的正负面分析采用的是第三方平台bosonnlp提供的服务，此功能默认关闭，如需开此，可在config.ini中Positive设置。但由于使用的是免费服务，一天只有500条的分析量，如需一次性分析500条以上，则需自己更改密钥（在positive.py中内置了三个密钥，但只启动一个，如若必要，可自己手动注释更改）
增加了新闻筛选功能（即初步确定此新闻是否是相对应博物馆新闻），默认关闭，基本操作与6中说明一致
在config.ini中设置了URL爬取页面数SpiderPage，默认为6，若需爬取更多URL，可适当自行更改为更大数字

2018-04-08

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.idea		.idea
logfile		logfile
spiderlogfile		spiderlogfile
ConfirmMuseum.py		ConfirmMuseum.py
DataClean.py		DataClean.py
GetIPProxy.py		GetIPProxy.py
GetNewsClass.py		GetNewsClass.py
GetNewsData.py		GetNewsData.py
MainProgram.py		MainProgram.py
README.md		README.md
SelectTime.py		SelectTime.py
URLspider.py		URLspider.py
URLspider2.py		URLspider2.py
config.ini		config.ini
dataselect.py		dataselect.py
geckodriver.log		geckodriver.log
museum.txt		museum.txt
museum1.txt		museum1.txt
portals.txt		portals.txt
positive.py		positive.py
requirements.txt		requirements.txt

chenjunjunjun/museum-news-spider