Python get_category_url Exemples, aboutCategory.get_category_url.get_category_url Python Exemples

Exemple #1

0

Afficher le fichier

Fichier : news_scrapy.py Projet : zkneverturnover/QIANGGUO

    def __decorateArticleUrlDict__(self):
        """
        用于对文章栏目url进行补充，以达到爬取网站所有文章的目的
        :return:
        """
        from aboutCategory.get_category_url import get_category_url
        scrapy = get_category_url()
        #从其他脚本拿到所有可用的栏目url
        validUrlList = scrapy.getValidurlList()

        #将原来的栏目url字典变成列表
        completedArticleColumnUrl = []
        for value in self.__columnUrlDict.values():
            completedArticleColumnUrl.append(value)

        #将所有新拿到的且内容文章的栏目url，加入到completedArticleColumnUrl这个列表中
        for columnUrl in validUrlList:
            try:
                temp = self.__getPercolumn_allUrl__(columnUrl)
                articleColumnUrl = columnUrl

                #判断本次的栏目url是否已经存在于列表中
                flag = True
                for url in completedArticleColumnUrl:
                    if url == articleColumnUrl:
                        flag = False

                #本次栏目不存在于列表时才插入
                if flag == True:
                    completedArticleColumnUrl.append(articleColumnUrl)
            except:
                pass
                # print "这是一个无法获取文章的栏目，应该是视频"
        print "文章栏目更新完毕，下面开始更新文章"
        return completedArticleColumnUrl

Exemple #2

0

Afficher le fichier

    def __decorateVideoUrlDict__(self):
        from aboutCategory.get_category_url import get_category_url
        scrapy = get_category_url()
        #从其他脚本拿到所有可用的栏目url
        validUrlList = scrapy.getValidurlList()

        #将原来的栏目url字典变成列表
        completedVideoColumnUrl = [
            "https://www.xuexi.cn/4426aa87b0b64ac671c96379a3a8bd26/datadb086044562a57b441c24f2af1c8e101.js"
        ]

        #将所有新拿到的且内容文章的栏目url，加入到completedArticleColumnUrl这个列表中
        for columnUrl in validUrlList:
            try:
                temp = self.__getVideoList__(columnUrl)
            except:
                print "这不是视频栏目"

Exemple #3

0

Afficher le fichier

 def __decorateVideoUrlDict__(self):
     from aboutCategory.get_category_url import get_category_url
     scrapy = get_category_url()
     #从其他脚本拿到所有可用的栏目url
     validUrlList = scrapy.getValidurlList()
     completedVideoColumnUrl = ["https://www.xuexi.cn/4426aa87b0b64ac671c96379a3a8bd26/datadb086044562a57b441c24f2af1c8e101.js"]
     #将所有新拿到的且内容文章的栏目url，加入到completedArticleColumnUrl这个列表中
     for columnUrl in validUrlList:
         try:
             jsUrl = self.__htmltojs__(columnUrl)
             temp = self.__getVideoList__(jsUrl)
             if len(temp)!=0:
                 flag = 1
                 for i in completedVideoColumnUrl:
                     if jsUrl == i:
                         flag = 0
                 if flag == 1:
                     completedVideoColumnUrl.append(jsUrl)
         except:
             pass
     else:
         return completedVideoColumnUrl

Exemple #4

0

Afficher le fichier

    def __decorateArticleUrlDict__(self):
        """
        用于对文章栏目url进行补充，以达到爬取网站所有文章的目的
        :return:
        """
        #下面三单引号注释的是对txt里的地址的空链接处理，爬取内容的话已初始化，无需再处理
        from aboutCategory.get_category_url import get_category_url
        scrapy = get_category_url()  #类的实例化
        #从其他脚本拿到所有可用的栏目url
        validUrlList = scrapy.getValidurlList()  #去除空链接的列表

        #将原来的栏目url字典变成列表
        completedArticleColumnUrl = []
        for value in self.__columnUrlDict.values():
            completedArticleColumnUrl.append(
                value)  #现在一个是原来txt里处理过空链接的列表validUrlList，一个是初始化里字典处理后的列表
        #将所有新拿到的且内容文章的栏目url，加入到completedArticleColumnUrl这个列表中
        for columnUrl in validUrlList:
            try:
                temp = self.__getPercolumn_allUrl__(columnUrl)  #文章详情url列表
                #print(temp)
                articleColumnUrl = columnUrl
                #print(articleColumnUrl)
                #判断本次的栏目url是否已经存在于列表中
                flag = True
                for url in completedArticleColumnUrl:
                    if url == articleColumnUrl:
                        flag = False

                #本次栏目不存在于列表时才插入
                if flag == True:
                    completedArticleColumnUrl.append(articleColumnUrl)
            except:
                print("这是一个无法获取文章的栏目，应该是视频")
        print("文章栏目更新完毕，下面开始更新文章")
        return completedArticleColumnUrl  #返回的是所有栏目的链接，里面是具体的内容