Python TwitterIterators.iterateFromFile示例

编程语言: Python

命名空间/包名称: twitter_streams_clustering

类/类型: TwitterIterators

方法/功能: iterateFromFile

hotexamples.com的示例: 6

Python TwitterIterators.iterateFromFile - 已找到6个示例。这些是从开源项目中提取的最受好评的twitter_streams_clustering.TwitterIterators.iterateFromFile现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

iterateTweetsFromExperts(9)

iterateFromFile(3)

示例#1

显示文件

文件： performance_with_cda.py 项目： greeness/hd_streams_clustering

 def performanceForCDAAt(noOfTweets, fileName, **stream_settings):
     clustering=HDStreaminClustering(**stream_settings)
     ts = time.time()
     clustering.cluster(TwitterIterators.iterateFromFile(fileName))
     te = time.time()
     documentClusters = [cluster.documentsInCluster.keys() for k, cluster in clustering.clusters.iteritems() if len(cluster.documentsInCluster.keys())>=stream_settings['cluster_filter_threshold']]
     return Evaluation.getEvaluationMetrics(noOfTweets, documentClusters, te-ts)

示例#2

显示文件

文件： quality_comparison_with_kmeans.py 项目： greeness/hd_streams_clustering

 def _tweetIterator(self):
         userMap = {}
         for tweet in TwitterIterators.iterateFromFile(self.fileName+'.gz'):
             user = tweet['user']['screen_name']
             phrases = [phrase.replace(' ', unique_string) for phrase in getPhrases(getWordsFromRawEnglishMessage(tweet['text']), self.stream_settings['min_phrase_length'], self.stream_settings['max_phrase_length'])]
             if phrases:
                 if user not in userMap: userMap[user] = ' '.join(phrases)
                 else: userMap[user]+= ' ' + ' '.join(phrases)
         return userMap.iteritems()

示例#3

显示文件

文件： quality_comparison_with_kmeans.py 项目： greeness/hd_streams_clustering

 def _tweetWithTimestampIterator(self):
         userMap = defaultdict(dict)
         for tweet in TwitterIterators.iterateFromFile(self.fileName+'.gz'):
             user = tweet['user']['screen_name']
             userMap[user]['user'] = {'screen_name': user}
             userMap[user]['id'] = tweet['id']
             userMap[user]['created_at'] = tweet['created_at']
             if 'text' not in userMap[user]: userMap[user]['text'] = ' '
             phrases = [phrase.replace(' ', unique_string) for phrase in getPhrases(getWordsFromRawEnglishMessage(tweet['text']), self.stream_settings['min_phrase_length'], self.stream_settings['max_phrase_length'])]
             if phrases: userMap[user]['text']+= ' ' + ' '.join(phrases)
         return userMap.iteritems()

示例#4

显示文件

 def performanceForCDAAt(noOfTweets, fileName, **stream_settings):
     clustering = HDStreaminClustering(**stream_settings)
     ts = time.time()
     clustering.cluster(TwitterIterators.iterateFromFile(fileName))
     te = time.time()
     documentClusters = [
         cluster.documentsInCluster.keys()
         for k, cluster in clustering.clusters.iteritems()
         if len(cluster.documentsInCluster.keys()) >=
         stream_settings['cluster_filter_threshold']
     ]
     return Evaluation.getEvaluationMetrics(noOfTweets, documentClusters,
                                            te - ts)

示例#5

显示文件

 def _tweetIterator(self):
     userMap = {}
     for tweet in TwitterIterators.iterateFromFile(self.fileName + '.gz'):
         user = tweet['user']['screen_name']
         phrases = [
             phrase.replace(' ', unique_string) for phrase in getPhrases(
                 getWordsFromRawEnglishMessage(tweet['text']),
                 self.stream_settings['min_phrase_length'],
                 self.stream_settings['max_phrase_length'])
         ]
         if phrases:
             if user not in userMap: userMap[user] = ' '.join(phrases)
             else: userMap[user] += ' ' + ' '.join(phrases)
     return userMap.iteritems()

示例#6

显示文件

 def _tweetWithTimestampIterator(self):
     userMap = defaultdict(dict)
     for tweet in TwitterIterators.iterateFromFile(self.fileName + '.gz'):
         user = tweet['user']['screen_name']
         userMap[user]['user'] = {'screen_name': user}
         userMap[user]['id'] = tweet['id']
         userMap[user]['created_at'] = tweet['created_at']
         if 'text' not in userMap[user]: userMap[user]['text'] = ' '
         phrases = [
             phrase.replace(' ', unique_string) for phrase in getPhrases(
                 getWordsFromRawEnglishMessage(tweet['text']),
                 self.stream_settings['min_phrase_length'],
                 self.stream_settings['max_phrase_length'])
         ]
         if phrases: userMap[user]['text'] += ' ' + ' '.join(phrases)
     return userMap.iteritems()