Python Common.GetContentByUrl Exemples

Langage de programmation: Python

Espace de nommage/Pack: Common

Class/Type: Common

Méthode/Fonction: GetContentByUrl

Exemples au hotexamples.com: 2

Python Common.GetContentByUrl - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de Common.Common.GetContentByUrl extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

GetConfig(30)

Common(30)

Install_Package(3)

app_data(3)

CreateIfNotExist(3)

Wait(2)

append_to_file(2)

NextPage(2)

MakeTime(2)

enum(2)

GetTemplate(2)

Init(2)

__init__(2)

GetContentByUrl(2)

Frame(2)

fill_out_field(1)

get_operating_system(1)

ADB_SN(1)

IsInteger(1)

UrlJoin(1)

UploadSampleFiles(1)

CheckCodeRemote(1)

GetPCcode(1)

ClientClose(1)

wait_for_element_visibility(1)

Méthodes fréquemment utilisées

GetConfig (30)

Common (30)

Install_Package (3)

app_data (3)

CreateIfNotExist (3)

Wait (2)

append_to_file (2)

NextPage (2)

MakeTime (2)

enum (2)

Méthodes fréquemment utilisées

GetTemplate (2)

Init (2)

__init__ (2)

GetContentByUrl (2)

Frame (2)

fill_out_field (1)

get_operating_system (1)

ADB_SN (1)

IsInteger (1)

UrlJoin (1)

UploadSampleFiles (1)

CheckCodeRemote (1)

GetPCcode (1)

ClientClose (1)

wait_for_element_visibility (1)

Méthodes fréquemment utilisées

UploadSampleFiles (1)

CheckCodeRemote (1)

GetPCcode (1)

ClientClose (1)

wait_for_element_visibility (1)

Exemple #1

0

Afficher le fichier

Fichier : slaver_PicAnalysisCmd.py Projet : 2451086495/DisCrawler

def CPUStage(cls, data): content = data[0] url = data[1] print "%s get url : %s" % (cls.Name(), url) imgSet = cls.GetImgUrls(url, content, cls.picFmt) #提取网页中图片的url maxUnhealImgCnt = len(imgSet) * float( cls.unhealthrate) #根据设定的不良图片比例，计算出网页中不良图片的数量 unHealthImgCnt = 0 for imgurl in imgSet: imgtype, content = Common.GetContentByUrl(imgurl) #抓取图片 if content != None and cls.Parser.IsInvalidImg( content, imgtype, imgurl): #分析是否为不良图片 unHealthImgCnt += 1 if unHealthImgCnt >= maxUnhealImgCnt: #网页中不良图片数量超过阈值maxUnhealImgCnt picName = str(random.randint(0, 10000000)) + '.jpg' master_LogCmd.WriteTaskData( "!!!! found invalid html by %s: url: %s, picname:%s" % (cls.Name(), url, picName)) os.popen('phantomjs snapshot.js %s %s' % (url, picName)) #网页截图 break

Exemple #2

0

Afficher le fichier

Fichier : slaver_ScripyCmd.py Projet : 2451086495/DisCrawler

def IOStage(cls, url): #在redis中记录当前抓取的线程id key = "%s_%d" % (cls.mac, threading.currentThread().ident) cls.FrameInfo.hset(key, url) # 抓取数据 contenttype, content = Common.GetContentByUrl(url) #在redis更新抓取网页统计值 urlHandleCnt = int(cls.FrameInfo.hget(cls.handleCnt)) + 1 cls.FrameInfo.hset(cls.handleCnt, urlHandleCnt) cls.FrameInfo.hdel(key) #抓取异常判断 if content == None or contenttype == None or content == '': master_LogCmd.WriteTaskData("Failed : %s" % url) return None #对于网页内容，则触发“基于文本分析不良网页的任务” if contenttype.find("text/html") != -1: #是网页资源 slaver_WordAnalysisCmd.WriteTaskData(content, url) return None