Python Crawler.crawling_process示例

编程语言: Python

命名空间/包名称: Crawler

类/类型: Crawler

方法/功能: crawling_process

hotexamples.com的示例: 1

Python Crawler.crawling_process - 已找到1个示例。这些是从开源项目中提取的最受好评的Crawler.Crawler.crawling_process现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Crawler(30)

crawl(15)

click(5)

close(4)

crawl_native(4)

getPage(3)

_process_next_url(2)

crawl_and_createfile(2)

add_to_dirlist(2)

crawl_multithread(2)

_process_html_link(2)

_process_html_asset(2)

_process_html(2)

save_crawler_data(2)

save_lists(2)

_make_request(2)

__init__(2)

render_sitemap(2)

crawling_process(1)

create_file(1)

create_view(1)

getCurrentPage(1)

getLinkStructure(1)

crawling(1)

crawl_own_albums(1)

Crawl(1)

getNextPage(1)

getPage2(1)

getTreeIndex(1)

getVisited(1)

hasNext(1)

join(1)

loadConf(1)

printLinkStructure(1)

process_q(1)

startCrawl(1)

startCrawling(1)

go(1)

crawl_index(1)

crawl_one(1)

baidu_search(1)

SLEEP_TIME(1)

URL_LIMIT(1)

_normalize_url(1)

_parse_url(1)

add(1)

addNewWorks(1)

add_target_full_profile(1)

add_target_short_profile(1)

all(1)

示例#1

0

显示文件

def main(args):
    current_path = os.getcwd()
    logging.info(f'current python path {current_path}...')

    logging.info('Load data...')
    train_csv = pd.read_csv(f'{current_path}/data/tbrain_train_final_0603.csv')

    logging.info('Data preprocessing...')
    train_csv = pd.concat(
        [train_csv, pd.DataFrame(['dummy' for i in range(5023)])], axis=1)
    train_csv.columns = list(train_csv.columns[:-1]) + ['article']
    train_csv['domain'] = train_csv['hyperlink'].apply(
        lambda x: x.split('//')[1].split('/')[0])

    logging.info('Start crawling...')
    crawler = Crawler()
    crawler.crawling_process(train_csv, test=False)

    logging.info(f'Saving to {args.save_path}...')
    train_csv.to_csv(f'{args.save_path}', index=False)

    logging.info('Finish!')