Python MongoDB.increment_url_counter示例

编程语言: Python

命名空间/包名称: db.database.mongodb_connector

类/类型: MongoDB

方法/功能: increment_url_counter

hotexamples.com的示例: 2

Python MongoDB.increment_url_counter - 已找到2个示例。这些是从开源项目中提取的最受好评的db.database.mongodb_connector.MongoDB.increment_url_counter现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

get(3)

save_modify_url(3)

connect(2)

get_url_object(2)

increment_url_counter(2)

count(1)

get_m(1)

push_to_queue(1)

save_page(1)

update_url(1)

示例#1

显示文件

文件： web_scrape_oldr.py 项目： wangk1/research

    def scrape_links(self,pos):

        doc_object=MongoDB.get(URLQueue,'document',number=pos)

        while doc_object is not None:
            self.scrape_link_and_child(doc_object['url'])
            pos=MongoDB.increment_url_counter()

            doc_object=MongoDB.get(URLQueue,'document',number=pos)

示例#2

显示文件

文件： web_scrape_pipeline.py 项目： wangk1/research

    def scrape_urls_multiproc(cls):
        #current position
        pos=MongoDB.get(MetaData,'position',type='queue')
        #current cap
        cap=pos

        process_queue=queue.Queue(maxsize=settings.NUM_PROCESSES)

        #creates all the necessary processes
        for p_num in range(0,settings.NUM_PROCESSES):
            p=mp.Process(target=WebScraper().scrape_links_from_position,args=[cap])
            #get curresponding objects
            process_queue.put(p)

            cap+=settings.NUM_URLS_PER_PROCESS

            #now start
            p.start()

        head=process_queue.get()
        #wait and create new processes as needed
        while(pos<MongoDB.count(URLQueue)):
            head.join()

            if not head.exitcode ==0:
                Logger.error('Error with Process, terminating')
                return

            #update counter
            MongoDB.increment_url_counter(settings.NUM_URLS_PER_PROCESS)

            p=mp.Process(target=WebScraper().scrape_links_from_position,args=[cap])
            process_queue.put(p)
            p.start()

            #increase both cap and current position
            cap+=settings.NUM_URLS_PER_PROCESS
            pos+=settings.NUM_URLS_PER_PROCESS
            head=process_queue.get()


        print(p.exitcode)

        return cls