Python StreamSimilarityAggregationMR.estimate示例

编程语言: Python

命名空间/包名称: experiments.ssa.ssa

方法/功能: estimate

hotexamples.com的示例: 5

Python StreamSimilarityAggregationMR.estimate - 已找到5个示例。这些是从开源项目中提取的最受好评的experiments.ssa.ssa.StreamSimilarityAggregationMR.estimate现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

estimate(3)

示例#1

显示文件

def getStatsForSSAMR():
    batchSize = 50000
    default_experts_twitter_stream_settings['ssa_threshold'] = 0.75
    for id in range(0, 10):
        ts = time.time()
        fileName = time_to_process_points + '%s/%s' % (batchSize, id)
        iteration_file = '%s_%s' % (batchSize, id)
        print 'Generating data for ', iteration_file
        with open(iteration_file, 'w') as fp:
            [
                fp.write(CJSONProtocol.write('x', [doc1, doc2]) + '\n') for
                doc1, doc2 in combinations(iterateUserDocuments(fileName), 2)
            ]
        os.system('hadoop fs -put %s %s' % (iteration_file, hdfsUnzippedPath))
        StreamSimilarityAggregationMR.estimate(
            hdfsUnzippedPath + '/%s' % iteration_file,
            args='-r hadoop'.split(),
            jobconf={
                'mapred.map.tasks': 25,
                'mapred.task.timeout': 7200000,
                'mapred.reduce.tasks': 25
            })

        os.system('hadoop fs -rmr %s' %
                  (hdfsUnzippedPath + '/%s' % iteration_file))
        os.system('rm -rf %s' % iteration_file)
        iteration_data = {
            'iteration_time': time.time() - ts,
            'type': 'ssa_mr',
            'number_of_messages': batchSize * (id + 1),
            'batch_size': batchSize
        }
        FileIO.writeToFileAsJson(iteration_data, ssa_mr_stats_file)

示例#2

显示文件

文件： time_to_process_points.py 项目： kykamath/hd_streams_clustering

def getStatsForSSAMR():
    batchSize = 50000
    default_experts_twitter_stream_settings['ssa_threshold']=0.75
    for id in range(0, 10):
        ts = time.time()
        fileName = time_to_process_points+'%s/%s'%(batchSize,id)
        iteration_file = '%s_%s'%(batchSize, id)
        print 'Generating data for ', iteration_file
        with open(iteration_file, 'w') as fp: [fp.write(CJSONProtocol.write('x', [doc1, doc2])+'\n') for doc1, doc2 in combinations(iterateUserDocuments(fileName),2)]
        os.system('hadoop fs -put %s %s'%(iteration_file, hdfsUnzippedPath))    
        StreamSimilarityAggregationMR.estimate(hdfsUnzippedPath+'/%s'%iteration_file, args='-r hadoop'.split(), 
                                        jobconf={'mapred.map.tasks':25, 'mapred.task.timeout': 7200000, 'mapred.reduce.tasks':25})
        
        os.system('hadoop fs -rmr %s'%(hdfsUnzippedPath+'/%s'%iteration_file))
        os.system('rm -rf %s'%iteration_file)
        iteration_data = {'iteration_time': time.time()-ts, 'type': 'ssa_mr', 'number_of_messages': batchSize*(id+1), 'batch_size': batchSize}
        FileIO.writeToFileAsJson(iteration_data, ssa_mr_stats_file)

示例#3

显示文件

文件： quality_comparison_with_ssa.py 项目： kykamath/hd_streams_clustering

 def getStatsForSSAMR(self):
     print "SSA-MR"
     ts = time.time()
     documentClusters = list(
         StreamSimilarityAggregationMR.estimate(
             self.hdfsUnzippedFile,
             args="-r hadoop".split(),
             jobconf={"mapred.map.tasks": 25, "mapred.task.timeout": 7200000, "mapred.reduce.tasks": 25},
         )
     )
     te = time.time()
     return self.getEvaluationMetrics(documentClusters, te - ts)

示例#4

显示文件

文件： quality_comparison_with_ssa.py 项目： ylaron/hd_streams_clustering

 def getStatsForSSAMR(self):
     print 'SSA-MR'
     ts = time.time()
     documentClusters = list(
         StreamSimilarityAggregationMR.estimate(self.hdfsUnzippedFile,
                                                args='-r hadoop'.split(),
                                                jobconf={
                                                    'mapred.map.tasks': 25,
                                                    'mapred.task.timeout':
                                                    7200000,
                                                    'mapred.reduce.tasks':
                                                    25
                                                }))
     te = time.time()
     return self.getEvaluationMetrics(documentClusters, te - ts)

示例#5

显示文件

文件： ssa_tests.py 项目： ylaron/hd_streams_clustering

 def test_estimate(self):
     args = '-r hadoop' if os.uname()[1]=='spock' else '-r local'
     self.assertEqual([['1', '3', '2', '4'], ['5', '7', '6']], list(StreamSimilarityAggregationMR.estimate(test_file, args=args.split(), jobconf={'mapred.reduce.tasks':2})))