Python ThreadPool 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: function.threadPool

클래스/타입: ThreadPool

hotexamples.com에서의 예제들: 4

Python ThreadPool - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 function.threadPool.ThreadPool에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ThreadPool(1)

getTaskLeft(1)

putTask(1)

startThreads(1)

stopThreads(1)

예제 #1

파일 보기

 def __init__(self, url, depth, model, thread, keyword=None):
     self.originalUrl = url
     #print self.originalUrl
     self.depth = depth
     self.model = model
     self.threadNum = thread
     self.keyword = str(keyword)
     self.currentDepth = 0
     self.crawState = False
     self.threadPool = ThreadPool(self.threadNum)
     self.visitedUrls = set()
     self.unvisitedUrls = deque()
     self.unvisitedUrls.append(url)
     self.visitedUrls = []

예제 #2

파일 보기

파일: crawler.py 프로젝트: 360sec/Crawler

class Crawler(object):
    def __init__(self,url,depth,model,thread,keyword=None):
        self.originalUrl=url
        #print self.originalUrl
        self.depth=depth
        self.model=model
        self.threadNum=thread
        self.keyword=str(keyword)
        self.currentDepth=0
        self.crawState=False
        self.threadPool=ThreadPool(self.threadNum)
        self.visitedUrls=set()
        self.unvisitedUrls=deque()
        self.unvisitedUrls.append(url)
        self.visitedUrls=[]
    def start(self):
        print "[START]Perhaps wait .......\n"
        self.crawState=True
        self.threadPool.startThreads()
        while self.currentDepth<=self.depth:
            
            self.assignCurrentDepthTasks()
            while self.threadPool.getTaskLeft():
                time.sleep(5)
            self.currentDepth+=1
        self.stop()
    def assignCurrentDepthTasks(self):
        while self.unvisitedUrls:
            url=self.unvisitedUrls.popleft()
            self.threadPool.putTask(self.task_handler,url)
            self.visitedUrls.append(url)
        print 'Depth %d Finish.Totally visited %d links\n' %(self.currentDepth,len(self.visitedUrls))
    def stop(self):
        self.crawState=False
        self.threadPool.stopThreads()
    def task_handler(self,url):
        downloadpage=DownLoadPage(url)
        if downloadpage.downloadpage(self.model):#default downloadpagemodel is static
            page,url=downloadpage.returnpage()
            getlinks=GetLinks(page,url)
            links=getlinks.getLinks(self.originalUrl)
            for link in links:
                self.outputData(link)
                self.unvisitedUrls.append(link)
    def outputData(self,url):#动态链接；子域名；keyword等过滤条件
        if self.keyword=='dynamic':
            if '?' in url:
                with open('dict.txt','a+') as file:
                    file.write(url+'\n')
                print url
        elif self.keyword=='subdomain':
            url=url.split('/')[2]#TODO filter domain
            print '[INFO]',url
        else:
            print '[INFO]',url

예제 #3

파일 보기

파일: crawler.py 프로젝트: 360sec/Crawler

 def __init__(self,url,depth,model,thread,keyword=None):
     self.originalUrl=url
     #print self.originalUrl
     self.depth=depth
     self.model=model
     self.threadNum=thread
     self.keyword=str(keyword)
     self.currentDepth=0
     self.crawState=False
     self.threadPool=ThreadPool(self.threadNum)
     self.visitedUrls=set()
     self.unvisitedUrls=deque()
     self.unvisitedUrls.append(url)
     self.visitedUrls=[]

예제 #4

파일 보기

class Crawler(object):
    def __init__(self, url, depth, model, thread, keyword=None):
        self.originalUrl = url
        #print self.originalUrl
        self.depth = depth
        self.model = model
        self.threadNum = thread
        self.keyword = str(keyword)
        self.currentDepth = 0
        self.crawState = False
        self.threadPool = ThreadPool(self.threadNum)
        self.visitedUrls = set()
        self.unvisitedUrls = deque()
        self.unvisitedUrls.append(url)
        self.visitedUrls = []

    def start(self):
        print "[START]Perhaps wait .......\n"
        self.crawState = True
        self.threadPool.startThreads()
        while self.currentDepth <= self.depth:

            self.assignCurrentDepthTasks()
            while self.threadPool.getTaskLeft():
                time.sleep(5)
            self.currentDepth += 1
        self.stop()

    def assignCurrentDepthTasks(self):
        while self.unvisitedUrls:
            url = self.unvisitedUrls.popleft()
            self.threadPool.putTask(self.task_handler, url)
            self.visitedUrls.append(url)
        print 'Depth %d Finish.Totally visited %d links\n' % (
            self.currentDepth, len(self.visitedUrls))

    def stop(self):
        self.crawState = False
        self.threadPool.stopThreads()

    def task_handler(self, url):
        downloadpage = DownLoadPage(url)
        if downloadpage.downloadpage(
                self.model):  #default downloadpagemodel is static
            page, url = downloadpage.returnpage()
            getlinks = GetLinks(page, url)
            links = getlinks.getLinks(self.originalUrl)
            for link in links:
                self.outputData(link)
                self.unvisitedUrls.append(link)

    def outputData(self, url):  #动态链接；子域名；keyword等过滤条件
        if self.keyword == 'dynamic':
            if '?' in url:
                with open('dict.txt', 'a+') as file:
                    file.write(url + '\n')
                print url
        elif self.keyword == 'subdomain':
            url = url.split('/')[2]  #TODO filter domain
            print '[INFO]', url
        else:
            print '[INFO]', url