Python makeClusterRunner 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pubGeneric

메소드/함수: makeClusterRunner

hotexamples.com에서의 예제들: 6

Python makeClusterRunner - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pubGeneric.makeClusterRunner에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def runMatrixJobs(outFname, datasets, wordListFname, posPmidFname, negPmidFname, \
        skipMap, outFormat, onlyTest, docIdFname, posPmids=None, negPmids=None, runner=None):
    """ run jobs to convert the articles to a bag-of-words matrix """

    assert (outFormat in ["svml", "arff", "pmidsvml"])

    if isinstance(datasets, basestring):
        datasets = [datasets]

    if runner == None:
        runner = pubGeneric.makeClusterRunner(__file__)

    logging.debug("pos and neg pmid fnames are: %s, %s" %
                  (posPmidFname, negPmidFname))
    if posPmidFname != None:
        posPmids = parsePmids(posPmidFname)
    if negPmidFname != None:
        negPmids = parsePmids(negPmidFname)

    termList = parseTerms(wordListFname)

    paramDict = {"termList" : termList, "posPmids"  : posPmids, \
                 "negPmids" : negPmids, "outFormat" : outFormat }
    paramDict["docIdOutFname"] = docIdFname

    pubAlg.mapReduce(__file__+":MatrixMaker", datasets, paramDict, \
        outFname, skipMap=skipMap, runTest=True, runner=runner, onlyTest=onlyTest)

예제 #2

파일 보기

파일: pubExpMatrix.py 프로젝트: Moxikai/pubMunch

def runMatrixJobs(outFname, datasets, wordListFname, posPmidFname, negPmidFname, \
        skipMap, outFormat, onlyTest, docIdFname, posPmids=None, negPmids=None, runner=None):
    """ run jobs to convert the articles to a bag-of-words matrix """

    assert (outFormat in ["svml", "arff", "pmidsvml"])

    if isinstance(datasets, basestring):
        datasets = [datasets]

    if runner==None:
        runner = pubGeneric.makeClusterRunner(__file__)

    logging.debug("pos and neg pmid fnames are: %s, %s" % (posPmidFname, negPmidFname))
    if posPmidFname!=None:
        posPmids = parsePmids(posPmidFname)
    if negPmidFname!=None:
        negPmids = parsePmids(negPmidFname)

    termList = parseTerms(wordListFname)

    paramDict = {"termList" : termList, "posPmids"  : posPmids, \
                 "negPmids" : negPmids, "outFormat" : outFormat }
    paramDict["docIdOutFname"] = docIdFname

    pubAlg.mapReduce(__file__+":MatrixMaker", datasets, paramDict, \
        outFname, skipMap=skipMap, runTest=True, runner=runner, onlyTest=onlyTest)

예제 #3

파일 보기

파일: pubMapProp.py 프로젝트: strbean/pubMunch-BRCA

 def getRunner(self, step):
     " return a runner object for the current dataset and pipelineStep"
     headNode = pubConf.stepHosts.get(step, None)
     logging.debug("Headnode for step %s is %s" % (step, headNode))
     return pubGeneric.makeClusterRunner("pubMap-" + self.dataset + "-" +
                                         step,
                                         headNode=headNode)

예제 #4

파일 보기

파일: pubChange.py 프로젝트: Moxikai/pubMunch

def submitJobs(inSpec, filterSpec, outDir):
    inDirs = pubConf.resolveTextDirs(inSpec)
    runner = pubGeneric.makeClusterRunner(__file__, maxJob=pubConf.convertMaxJob, algName=inSpec)

    outFnames = []
    for inDir in inDirs:
        inFnames = glob.glob(join(inDir, "*.articles.gz"))
        for inFname in inFnames:
            outFname = join(outDir, basename(dirname(inFname))+"-"+basename(inFname))
            outFnames.append(outFname)
            outFnames.append(outFname.replace('.articles.gz','.files.gz'))
            #command = "%s %s filterJob {check in exists %s} %s %s" % \
                #(sys.executable, __file__, inFname, pmidFname, outFname)
            runner.submitPythonFunc(__file__, "filterOneChunk", [inFname, filterSpec, outFname])
    runner.finish(wait=True)
    return outFnames

예제 #5

파일 보기

파일: pubChange.py 프로젝트: strbean/pubMunch-BRCA

def submitJobs(inSpec, filterSpec, outDir):
    inDirs = pubConf.resolveTextDirs(inSpec)
    runner = pubGeneric.makeClusterRunner(__file__,
                                          maxJob=pubConf.convertMaxJob,
                                          algName=inSpec)

    outFnames = []
    for inDir in inDirs:
        inFnames = glob.glob(join(inDir, "*.articles.gz"))
        for inFname in inFnames:
            outFname = join(
                outDir,
                basename(dirname(inFname)) + "-" + basename(inFname))
            outFnames.append(outFname)
            outFnames.append(outFname.replace('.articles.gz', '.files.gz'))
            #command = "%s %s filterJob {check in exists %s} %s %s" % \
            #(sys.executable, __file__, inFname, pmidFname, outFname)
            runner.submitPythonFunc(__file__, "filterOneChunk",
                                    [inFname, filterSpec, outFname])
    runner.finish(wait=True)
    return outFnames

예제 #6

파일 보기

파일: pubMapProp.py 프로젝트: Moxikai/pubMunch

 def getRunner(self, step):
     " return a runner object for the current dataset and pipelineStep"
     headNode = pubConf.stepHosts.get(step, None)
     logging.debug("Headnode for step %s is %s" % (step, headNode))
     return pubGeneric.makeClusterRunner("pubMap-"+self.dataset+"-"+step, headNode=headNode)