Пример #1
0
 def __init__(self, sortedUrlPh):
     '初始化urlid表 使用docID进行转化'
     #找到对应url
     self.urltest = Urltest()  #链接的相关操作对象
     f = open(sortedUrlPh)
     c = f.readlines()
     f.close()
     self.urlID = []
     for l in c:
         self.urlID.append(l.split()[1])
Пример #2
0
class UrlTrans:
    '传入url 转化为标准形式'

    def __init__(self, sortedUrlPh):
        '初始化urlid表 使用docID进行转化'
        #找到对应url
        self.urltest = Urltest()  #链接的相关操作对象
        f = open(sortedUrlPh)
        c = f.readlines()
        f.close()
        self.urlID = []
        for l in c:
            self.urlID.append(l.split()[1])

    def setTemHomeUrl(self, docID):
        '传入docID 取回url'
        #便于相对地址的转化
        self.temurl = self.urlID[int(docID)]

    def trans_d(self, url):
        #此处不对url检验
        item = url
        if item[0:4] == '\r\n':
            item = item[4:]
        if item[-1] == '/':
            item = item[:-1]
        if len(item) >= len('http://') and item[0:7] == 'http://':
            return item
        if item[0:5] == '/java' or item[0:4] == 'java':
            return False
        if item[0:3] == '../':
            item = self.urltest.absUrl(self.temurl, item)
        elif item[0] != '/':
            item = '/' + item
            item = self.temurl + item  #使用局部home_url代替了homeurl
        elif item[:2] == './':
            item = self.temurl + item[2:]
        return item