Python FileProcessor.delete_csv Exemples

Langage de programmation: Python

Espace de nommage/Pack: file_processor

Class/Type: FileProcessor

Méthode/Fonction: delete_csv

Exemples au hotexamples.com: 2

Python FileProcessor.delete_csv - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de file_processor.FileProcessor.delete_csv extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

FileProcessor(28)

dir_to_files(13)

process(6)

match_file(6)

run(5)

read_file(4)

transform_features(3)

train(3)

_zip_bytes_io(2)

delete_csv(2)

generate_statistics(2)

process_file(1)

save_file(1)

retrieveData(1)

remove_output_dir(1)

read_in_chunks(1)

readFile(1)

process_files(1)

prepare(1)

_s3_prefix(1)

convert_file_names_to_name_data_dict(1)

parse_data(1)

_bucket_key_list(1)

main(1)

get_second_lowest_cost_lookup(1)

get_rate_code_lookup(1)

get_lines_as_array(1)

get_file_contents(1)

_upload_file_obj(1)

create_outfile(1)

update_outfile(1)

Méthodes fréquemment utilisées

FileProcessor (28)

dir_to_files (13)

process (6)

match_file (6)

run (5)

read_file (4)

transform_features (3)

train (3)

_zip_bytes_io (2)

delete_csv (2)

Méthodes fréquemment utilisées

generate_statistics (2)

process_file (1)

save_file (1)

retrieveData (1)

remove_output_dir (1)

read_in_chunks (1)

readFile (1)

process_files (1)

prepare (1)

_s3_prefix (1)

convert_file_names_to_name_data_dict (1)

parse_data (1)

_bucket_key_list (1)

main (1)

get_second_lowest_cost_lookup (1)

get_rate_code_lookup (1)

get_lines_as_array (1)

get_file_contents (1)

_upload_file_obj (1)

create_outfile (1)

Méthodes fréquemment utilisées

convert_file_names_to_name_data_dict (1)

parse_data (1)

_bucket_key_list (1)

main (1)

get_second_lowest_cost_lookup (1)

get_rate_code_lookup (1)

get_lines_as_array (1)

get_file_contents (1)

_upload_file_obj (1)

create_outfile (1)

update_outfile (1)

Méthodes fréquemment utilisées

update_outfile (1)

Exemple #1

0

Afficher le fichier

Fichier : second_pass_crawler.py Projet : jay-hood/electionmoney

class SecondPassCrawler: session = attr.ib() navigator = attr.ib(init=False) file_processor = attr.ib(init=False) def __attrs_post_init__(self): self.navigator = SeleniumNavigator(loading_strategy='none') self.file_processor = FileProcessor() def exit(self): self.navigator.close_browser() self.session.close() def get_urls(self): # results = self.session.query(Report).all() # return (report.url for report in results) return ['http://media.ethics.ga.gov/search/Campaign/Campaign_ReportOptions.aspx?NameID=16067&FilerID=C2012000744&CDRID=59991'] def add_scrapelog_to_db(self, url, content, dtime): slog = ScrapeLog(scrape_date=dtime, raw_data=content, page_url=url) try: self.session.add(slog) self.session.commit() except Exception as e: self.session.rollback() logging.info(e) def crawl_download_link(self): parser = CSVLinkParser(self.navigator.page_source()) parsed_link = parser.parse() if parsed_link is not None: logging.info(f'Parsed link: {parsed_link}') url = self.navigator.get_current_url() self.navigator.click_link(parsed_link) logging.info('Clicking download link for csv file.') content, dtime = self.file_processor.process() self.add_scrapelog_to_db(url, content, dtime) self.file_processor.delete_csv() def crawl_view_contributions_ids(self): logging.info(f'Current page: {self.navigator.get_current_url()}') parser = ContributionsViewParser(self.navigator.page_source()) parsed_link = parser.parse() if parsed_link is not None: logging.info(f'Parsed link: {parsed_link}') self.navigator.click_link(parsed_link) self.navigator.wait_for_csv_link() self.crawl_download_link() def crawl(self): urls = self.get_urls() for url in urls: logging.info(f'Current url: {url}') self.navigator.navigate(url) self.navigator.wait_for_contributions_id() self.crawl_view_contributions_ids()

Exemple #2

0

Afficher le fichier

class SecondPassCrawler: session = attr.ib() navigator = attr.ib(init=False) file_processor = attr.ib(init=False) letter = attr.ib() def __attrs_post_init__(self): logging.info('attrs post init called') self.navigator = SeleniumNavigator(loading_strategy='none', letter=self.letter) self.file_processor = FileProcessor(letter=self.letter) def exit(self): self.navigator.close_browser() self.session.close() def get_urls(self): _ids = self.session.query(Candidate).filter( Candidate.Lastname.ilike('zorn')).all() #ids_ = \ #self.session.query(Candidate).filter(Lastname.like("%z%")).all() reports = [] for _id in _ids: results = \ self.session.query(Report).filter_by(CandidateId=_id.CandidateId).all() logging.info(results) for result in results: reports.append((result.CandidateId, result.Url)) return reports #return ['http://media.ethics.ga.gov/search/Campaign/Campaign_ReportOptions.aspx?NameID=16067&FilerID=C2012000744&CDRID=59991'] def add_scrapelog_to_db(self, _id, url, content, dtime): slog = ScrapeLog(CandidateId=_id, ScrapeDate=dtime, RawData=content, PageURL=url) try: self.session.add(slog) self.session.commit() except Exception as e: self.session.rollback() logging.info(e) def crawl_download_link(self, _id): parser = CSVLinkParser(self.navigator.page_source()) parsed_link = parser.parse() if parsed_link is not None: logging.info(f'Parsed link: {parsed_link}') url = self.navigator.get_current_url() self.navigator.click_link(parsed_link) logging.info('Clicking download link for csv file.') content, dtime = self.file_processor.process() logging.info('Adding scrapelog to database') self.add_scrapelog_to_db(_id, url, content, dtime) self.file_processor.delete_csv() def crawl_view_contributions_ids(self, _id): logging.info(f'Current page: {self.navigator.get_current_url()}') parser = ContributionsViewParser(self.navigator.page_source()) parsed_link = parser.parse() if parsed_link is not None: logging.info(f'Parsed link: {parsed_link}') self.navigator.click_link(parsed_link) self.navigator.wait_for_csv_link() self.crawl_download_link(_id) def crawl(self): for _id, url in self.get_urls(): logging.info(f'Current url: {url}') self.navigator.navigate(url) self.navigator.wait_for_contributions_id() self.crawl_view_contributions_ids(_id)