from datastorage import Stock # Interactua con mongodb db = Stock() site = db.url() while( site ): #db.update(site) site = db.url() print site['url']
import hashlib from spider import Spider # Clase para visitar los sitios web from datastorage import Stock # Interactua con mongodb from unidecode import unidecode stop = True db = Stock() # instancia para almacenamiento if (not db.count()): db.save_data({'visit':False,'url':''}); while( stop ): break if ( not db.url() ): break site = db.url() # obtenemos una url no visitada url = site['url'] # separo la url m = hashlib.sha1() date = time.strftime("%Y-%m-%d %H:%m") print "[ Visit ] " + url response = Spider.get_source(url) # obtiene el html de la url if not response : #si no hay respuesta lo marca como visitado site['visit'] = True db.update(site) # updatea el url