def __decorateArticleUrlDict__(self):
        """
        用于对文章栏目url进行补充,以达到爬取网站所有文章的目的
        :return:
        """
        from aboutCategory.get_category_url import get_category_url
        scrapy = get_category_url()
        #从其他脚本拿到所有可用的栏目url
        validUrlList = scrapy.getValidurlList()

        #将原来的栏目url字典变成列表
        completedArticleColumnUrl = []
        for value in self.__columnUrlDict.values():
            completedArticleColumnUrl.append(value)

        #将所有新拿到的且内容文章的栏目url,加入到completedArticleColumnUrl这个列表中
        for columnUrl in validUrlList:
            try:
                temp = self.__getPercolumn_allUrl__(columnUrl)
                articleColumnUrl = columnUrl

                #判断本次的栏目url是否已经存在于列表中
                flag = True
                for url in completedArticleColumnUrl:
                    if url == articleColumnUrl:
                        flag = False

                #本次栏目不存在于列表时才插入
                if flag == True:
                    completedArticleColumnUrl.append(articleColumnUrl)
            except:
                pass
                # print "这是一个无法获取文章的栏目,应该是视频"
        print "文章栏目更新完毕,下面开始更新文章"
        return completedArticleColumnUrl
Exemple #2
0
    def __decorateVideoUrlDict__(self):
        from aboutCategory.get_category_url import get_category_url
        scrapy = get_category_url()
        #从其他脚本拿到所有可用的栏目url
        validUrlList = scrapy.getValidurlList()

        #将原来的栏目url字典变成列表
        completedVideoColumnUrl = [
            "https://www.xuexi.cn/4426aa87b0b64ac671c96379a3a8bd26/datadb086044562a57b441c24f2af1c8e101.js"
        ]

        #将所有新拿到的且内容文章的栏目url,加入到completedArticleColumnUrl这个列表中
        for columnUrl in validUrlList:
            try:
                temp = self.__getVideoList__(columnUrl)
            except:
                print "这不是视频栏目"
Exemple #3
0
 def __decorateVideoUrlDict__(self):
     from aboutCategory.get_category_url import get_category_url
     scrapy = get_category_url()
     #从其他脚本拿到所有可用的栏目url
     validUrlList = scrapy.getValidurlList()
     completedVideoColumnUrl = ["https://www.xuexi.cn/4426aa87b0b64ac671c96379a3a8bd26/datadb086044562a57b441c24f2af1c8e101.js"]
     #将所有新拿到的且内容文章的栏目url,加入到completedArticleColumnUrl这个列表中
     for columnUrl in validUrlList:
         try:
             jsUrl = self.__htmltojs__(columnUrl)
             temp = self.__getVideoList__(jsUrl)
             if len(temp)!=0:
                 flag = 1
                 for i in completedVideoColumnUrl:
                     if jsUrl == i:
                         flag = 0
                 if flag == 1:
                     completedVideoColumnUrl.append(jsUrl)
         except:
             pass
     else:
         return completedVideoColumnUrl
Exemple #4
0
    def __decorateArticleUrlDict__(self):
        """
        用于对文章栏目url进行补充,以达到爬取网站所有文章的目的
        :return:
        """
        #下面三单引号注释的是对txt里的地址的空链接处理,爬取内容的话已初始化,无需再处理
        from aboutCategory.get_category_url import get_category_url
        scrapy = get_category_url()  #类的实例化
        #从其他脚本拿到所有可用的栏目url
        validUrlList = scrapy.getValidurlList()  #去除空链接的列表

        #将原来的栏目url字典变成列表
        completedArticleColumnUrl = []
        for value in self.__columnUrlDict.values():
            completedArticleColumnUrl.append(
                value)  #现在一个是原来txt里处理过空链接的列表validUrlList,一个是初始化里字典处理后的列表
        #将所有新拿到的且内容文章的栏目url,加入到completedArticleColumnUrl这个列表中
        for columnUrl in validUrlList:
            try:
                temp = self.__getPercolumn_allUrl__(columnUrl)  #文章详情url列表
                #print(temp)
                articleColumnUrl = columnUrl
                #print(articleColumnUrl)
                #判断本次的栏目url是否已经存在于列表中
                flag = True
                for url in completedArticleColumnUrl:
                    if url == articleColumnUrl:
                        flag = False

                #本次栏目不存在于列表时才插入
                if flag == True:
                    completedArticleColumnUrl.append(articleColumnUrl)
            except:
                print("这是一个无法获取文章的栏目,应该是视频")
        print("文章栏目更新完毕,下面开始更新文章")
        return completedArticleColumnUrl  #返回的是所有栏目的链接,里面是具体的内容