def getBeian(self,url): ''' :从360服务器读取所要网站的建站的详细信息 :如,网站名称、网站主页、网站所有者、网站所有单位、所有单位性质、备案信息、检验时间等信息。 :param url:需要获取相关信息的网站链接 ''' if ggv.pterminate:return None gd = GetDomain() domain = gd.getDomain(url) #提取链接中的域名,因为360根据域名获取网站建站信息 gi = GetItems() base64Code = base64.b64encode(domain) #编码为base64,因为360获取网站建站信息的超链接域名是base64编码的 beianUrl = cgv.url360 + base64Code htmlText = GetHtmlText() #获取网页文本 text = htmlText.getHtmlText(beianUrl) return gi.getItems(text, cgv.beiAnInfoItem, cgv.beiAnNoInfo)
def getBeian(self, url): """ :从360服务器读取所要网站的建站的详细信息 :如,网站名称、网站主页、网站所有者、网站所有单位、所有单位性质、备案信息、检验时间等信息。 :param url:需要获取相关信息的网站链接 """ if ggv.pterminate: return None gd = GetDomain() domain = gd.getDomain(url) # 提取链接中的域名,因为360根据域名获取网站建站信息 gi = GetItems() base64Code = base64.b64encode(domain) # 编码为base64,因为360获取网站建站信息的超链接域名是base64编码的 beianUrl = cgv.url360 + base64Code htmlText = GetHtmlText() # 获取网页文本 text = htmlText.getHtmlText(beianUrl) return gi.getItems(text, cgv.beiAnInfoItem, cgv.beiAnNoInfo)
def sitld(self,url): ''' :识别判断给定的url的语言是否为给定的语言 :param url: 给定的url ''' if ggv.pterminate:return None self.mksure = False ld = LangDect() html = GetHtmlText() text,htmlitems = html.getHtmlText(url,reply=True) if ggv.lang_use == 'mn' and text: #蒙古文网站复杂需要特殊处理 msignal = [u'蒙文',u'蒙古语',u'蒙古学会',u'蒙古文'] if len(htmlitems['generator']) > 5: #数字5没有特殊的意义 self.mksure = True elif not self.mksure: for ms in msignal: if htmlitems['title'].find(ms) >= 0: self.mksure = True if re.search(r'蒙古族.*(中|大|小)学'.decode('utf8'),htmlitems['title'],re.I): self.mksure = True elif not self.mksure: for mf in ggv.fontfamily['mn'].split(','): if htmlitems['font-family'].find(mf) >= 0: self.mksure = True if self.mksure: self.window.scanlogUpdate(u'语 言:%s\r\n可信度:1.000000000\r\n链 接:%s\r\n'%(ggv.lang_use,url)) #主界面同步显示扫描结果 return [{ggv.lang_use:'1.0'},htmlitems['charset-web']] if text: ldRst = ld.langDect(ggv.lang_use, text) #此处只需要返回的语言及其可信度,不需要接受编码方式 if ldRst: # print '语言:%s\t可信度:%s\t链接:%s\t'%(ldRst[0].keys()[0],ldRst[0].values()[0],url) logging.info('语言:%s\t可信度:%s\t链接:%s\t'%(ldRst[0].keys()[0],ldRst[0].values()[0],url)) self.window.scanlogUpdate(u'语 言:%s\r\n可信度:%s\r\n链 接:%s\r\n'\ %(ldRst[0].keys()[0],ldRst[0].values()[0],url)) #主界面同步显示扫描结果 if ggv.lang_use in ldRst[0] and ldRst[0][ggv.lang_use] > ggv.systemSetList[3]*0.01: #用户设定的阈值乘以0.01 return ldRst return None return None