示例#1
0
from datastorage import Stock # Interactua con mongodb

db = Stock()

site = db.url()

while( site ):
	#db.update(site)
	site = db.url()
	print site['url']
示例#2
0
import time 
#import nltk # NLP 
import hashlib

from spider import Spider     # Clase para visitar los sitios web
from datastorage import Stock # Interactua con mongodb

from unidecode import unidecode

stop = True
db = Stock() # instancia para almacenamiento

if (not db.count()):
	db.save_data({'visit':False,'url':''});

while( stop ):
	break
	if ( not db.url() ):
		break

	site = db.url()     # obtenemos una url no visitada 
	url  = site['url']  # separo la url
	m    = hashlib.sha1()
	date = time.strftime("%Y-%m-%d %H:%m")

	print "[ Visit  ] " + url 

	response = Spider.get_source(url) # obtiene el html de la url


	if not response :         #si no hay respuesta lo marca como visitado