コード例 #1
0
 def output(self):
     timestamp = self.timestamp.isoformat()
     timestamp = timestamp.replace(':', '-')
     file_prefix = os.path.splitext(os.path.basename(self.input_file))[0]
     return state_file(self.timestamp,
                       'warcs2cdx',
                       '%s-submitted-%s.txt' % (file_prefix, timestamp),
                       on_hdfs=True)
コード例 #2
0
ファイル: hdfs_scan_status.py プロジェクト: ukwa/ukwa-manage
 def output(self):
   return state_file(self.date,'hdfs', 'block-scanner-reports.json')
コード例 #3
0
 def _state_file(self, state_date, ext):
     return state_file(state_date,self.tag,'%s.%s' % (self.name, ext), on_hdfs=self.on_hdfs)
コード例 #4
0
 def output(self):
     return state_file(self.date, 'hdfs', 'duplicate-files-list.tsv')
コード例 #5
0
ファイル: hdfs_listings.py プロジェクト: ukwa/ukwa-tasks
 def output(self):
     return state_file(self.date, 'warc', 'warc-filesets.txt')
コード例 #6
0
ファイル: hdfs_listings.py プロジェクト: ukwa/ukwa-tasks
 def output(self):
     return state_file(None,
                       'access-hdfs',
                       'all-files-list.csv',
                       on_hdfs=False)
コード例 #7
0
 def output(self):
     return {
         'owb': state_file(self.date,'access-data', 'access-whitelist-beta.txt'),
         'pywb': state_file(self.date,'access-data', 'access-whitelist-beta.aclj')
     }
コード例 #8
0
 def output(self):
     return state_file(self.date, 'w3act-csv', 'all.json')
コード例 #9
0
ファイル: listings.py プロジェクト: ukwa/ukwa-tasks
 def output(self):
     return state_file(self.date, 'hdfs',
                       'warc-%s-duplicate-files-list.tsv' % self.collection)
コード例 #10
0
ファイル: listings.py プロジェクト: ukwa/ukwa-tasks
 def output(self):
     return state_file(self.date, 'hdfs',
                       'ukwa-%s-files-list.csv' % self.subset)
コード例 #11
0
ファイル: listings.py プロジェクト: ukwa/ukwa-tasks
 def output(self):
     return state_file(self.date, 'hdfs', 'warc-ukwa-files-list.csv')
コード例 #12
0
ファイル: listings.py プロジェクト: ukwa/ukwa-tasks
 def output(self):
     return state_file(self.date,
                       'hdfs',
                       'all-files-list.csv.gz',
                       on_hdfs=True)
コード例 #13
0
ファイル: search.py プロジェクト: ukwa/ukwa-manage
 def output(self):
     return state_file(self.date,'access-data', 'updated-collections-solr.json')
コード例 #14
0
ファイル: search.py プロジェクト: ukwa/ukwa-manage
 def output(self):
     return state_file(self.date,'access-data', 'indexer-annotations.json')
コード例 #15
0
ファイル: search.py プロジェクト: ukwa/ukwa-manage
 def output(self):
     logger.warning('in output')
     return state_file(self.date,'access-data', 'title-level-metadata-w3act.xml')
コード例 #16
0
 def output(self):
     return state_file(self.date, 'w3act-csv', 'db-csv.zip')
コード例 #17
0
 def output(self):
     return state_file(self.date, 'w3act-csv', 'db-csv.zip', on_hdfs=True)
コード例 #18
0
ファイル: listings.py プロジェクト: ukwa/ukwa-tasks
 def state_file(self, state_date, ext='csv'):
     return state_file(state_date,
                       'hdfs',
                       'all-files-list.%s' % ext,
                       on_hdfs=False)
コード例 #19
0
 def output(self):
     return state_file(self.date,'access-data', 'access-whitelist-updated.txt')
コード例 #20
0
 def output(self):
     return state_file(
         self.date, 'w3act-csv',
         'crawl-feed-%s.%s.json' % (self.feed, self.frequency))
コード例 #21
0
ファイル: hdfs_listings.py プロジェクト: ukwa/ukwa-tasks
 def output(self):
     return state_file(self.target_date, 'warcs',
                       '%s-warc-files-for-date.txt' % self.file_count)
コード例 #22
0
 def output(self):
     return state_file(self.date, 'w3act-csv', 'crawl-feed-but-all-oa.json')
コード例 #23
0
ファイル: hdfs_listings.py プロジェクト: ukwa/ukwa-tasks
 def dated_state_file(self):
     return state_file(self.date,
                       'access-hdfs',
                       'all-files-list.csv.gz',
                       on_hdfs=False)
コード例 #24
0
 def output(self):
     return state_file(self.date, 'w3act-collections', 'collections.json')
コード例 #25
0
 def output(self):
     return state_file(self.date, 'hdfs', 'empty-files-list.csv')
コード例 #26
0
 def output(self):
     return state_file(self.date, 'w3act-subjects', 'subject-list.json')
コード例 #27
0
 def output(self):
     return state_file(self.date, 'hdfs', 'crawl-file-lists.txt')
コード例 #28
0
 def output(self):
     return state_file(self.date, 'w3act-target-list', 'target-list.json')
コード例 #29
0
 def output(self):
     return state_file(self.date, 'w3act-target-list',
                       'target-list-%s.json' % self.frequency)
コード例 #30
0
ファイル: sitegen.py プロジェクト: GilHoggarth/ukwa-manage
 def output(self):
     return state_file(self.date, 'access-data',
                       'title-level-metadata-w3act.xml')