Python Spider.crawl_genre 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: spider

클래스/타입: Spider

메소드/함수: crawl_genre

hotexamples.com에서의 예제들: 3

Python Spider.crawl_genre - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 spider.Spider.crawl_genre에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Spider(30)

crawl_page(30)

crawl(14)

__init__(8)

craw(4)

Search(4)

crawl_genre(3)

build_node(3)

analyse(3)

process_page(2)

court(2)

add_url(2)

content_list(2)

GetInfo(2)

crowl(1)

crowl_page(1)

GET(1)

crawled_page(1)

createResultExcel(1)

get2l_url(1)

crawledPage(1)

crawle_page_in_queue(1)

crawl_weather(1)

crawl_video_urls(1)

crawl_robots(1)

data(1)

getfilename(1)

get3l_url(1)

post(1)

update(1)

startCrawl(1)

setworkdir(1)

setfilename(1)

setDaemon(1)

responseCallback(1)

parse_blog(1)

getSoup(1)

linkCallback(1)

levelCallback(1)

is_valid(1)

is_outgoing(1)

htmlCallback(1)

get_pdfs(1)

crawl_page_graph(1)

crawl_async_slots(1)

crawl_next_page_from_queue(1)

authorized(1)

Process(1)

ReturnValues(1)

Text(1)

예제 #1

파일 보기

def install():
    if request.method == 'GET':
        return render_template('install.html',
                               db_file=CONFIG.get("base", "db_file"),
                               frame_data={'title': '安装程序'})
    # 创建db
    db_file = CONFIG.get("base", "db_file")
    LOGGER.info('create db,', db_file)
    db = sqlite3.connect(db_file, check_same_thread=False)
    # 创建表
    sql_list = [
        CREATE_AV_LIST_SQL, CREATE_AV_STARS_SQL, CREATE_AV_GENRE_SQL,
        CREATE_AV_EXTEND_SQL
    ]
    for sql in sql_list:
        LOGGER.info('create table,sql:', sql)
        db.cursor().execute(sql)
    db.close()

    db_init()
    # 抓取av_genre
    insert(AV_GENRE, Spider.crawl_genre())
    if 'init.crawl' in request.form:
        # 七ツ森りり
        crawl_accurate('star', '17f01576bb6b6755')
        for item in AV_GENRE_DEMO_DATA:
            insert(AV_EXTEND, [{
                'extend_name': item[0],
                'key': item[1],
                'val': item[2]
            }])
    # 跳转到爬虫页
    return redirect(url_for('page_spider'))

예제 #2

파일 보기

def genre():
    # 获取类目
    av_genre_res = query_sql("SELECT linkid,name,title FROM av_genre")

    # 如果genre为空则抓取
    if not av_genre_res:
        LOGGER.info('spider.genre.fetch')
        insert(AV_GENRE, Spider.crawl_genre())
        return "请刷新"

    # 统计标签个数
    genre_list = []
    for row in query_sql("SELECT genre AS genre FROM av_list"):
        genre_list.extend(list(set(row['genre'].strip("|").split("|"))))
    genre_counter = collections.Counter(genre_list)

    data = {}
    for item in av_genre_res:
        if item['title'] not in data:
            data[item['title']] = []
        # 组装标签数据
        if item['name'] in genre_counter:
            item["genre_count"] = genre_counter[item['name']]

        data[item["title"]].append(item)
    data = list(data.values())
    return render_template('genre.html',
                           data={AV_GENRE: data},
                           frame_data={
                               'title': PAGE_TYPE_MAP['genre']['name'],
                               'origin_link': get_url("genre"),
                               'page': {
                                   'count': len(av_genre_res)
                               }
                           })

예제 #3

파일 보기

def crawl_accurate(page_type: str,
                   keyword: str = '',
                   page_start: int = 1,
                   page_limit: int = PAGE_MAX,
                   skip_exist: bool = True):
    if page_type not in [
            'movie', 'star', 'genre', 'series', 'studio', 'label', 'director',
            'search', 'popular', 'group', 'all_star', 'all_genre'
    ]:
        return 'wrong'
    if page_type == 'all_genre':
        LOGGER.info('spider.genre.fetch')
        insert(AV_GENRE, Spider.crawl_genre())
        return '抓取完毕'
    if page_type == 'group':
        page_type = 'search'
        keyword = keyword + '-'

    if page_type == 'all_star':
        star_list = query_sql("SELECT linkid,name FROM av_stars")
        for item in star_list:
            # 遍历所有演员
            add_work({
                "page_type": "star",
                "keyword": item['linkid'],
                "skip_exist": True,
            })
        return '排队中({})...'.format(len(star_list))

    if page_type in [
            'movie', 'star', 'genre', 'series', 'studio', 'label', 'director'
    ]:
        if not is_linkid(keyword):
            return 'keyword错误'
    add_work({
        "page_type": page_type,
        "keyword": keyword,
        "page_start": page_start,
        "page_limit": page_limit,
        "skip_exist": skip_exist,
    })
    return '排队中...'