continue # 【跳出对该jav的整理】 # 经过上面的三种情况,可能找到了jav在bus上的网页链接url_on_web print(' >获取信息:', url_on_web) # 得到最终的jav所在网页 html_web = get_bus_html(url_on_web, proxy_bus) # 开始匹配信息 # 有大部分信息的html_web html_web = search(r'(h3>[\s\S]*?)磁力連結投稿', html_web, re.DOTALL).group(1) # print(html_web) # 标题 title = search(r'h3>(.+?)</h3', html_web, re.DOTALL).group(1) # javbus上的标题可能占两行 # 去除xml文档和windows路径不允许的特殊字符 &<> \/:*?"<>| title = replace_xml_win(title) print(' >影片标题:', title) # 正则匹配 影片信息 开始! # title的开头是车牌号,想要后面的纯标题 car_titleg = search(r'(.+?) (.+)', title) # 车牌号 dict_nfo['车牌'] = jav_num = car_titleg.group(1) dict_nfo['车牌前缀'] = jav_num.split( '-', )[0] # 无码的车牌不一定有‘-’,这个问题没有解决 # 给用户重命名用的标题是“短标题”,nfo中是“完整标题”,但用户在ini中只用写“标题” title_only = car_titleg.group(2) # DVD封面cover coverg = search(r'bigImage" href="(.+?)">', html_web) # 封面图片的正则对象 if str(coverg) != 'None': url_cover = coverg.group(1)
html_web = post_321_html(url_search_web, {'sn': jav_raw_num}, proxy_321) # print(html_web) # 尝试找标题 titleg = search(r'h3>(.+?) <small>', html_web) # 匹配处理“标题” # 找得到,搜索结果就是AV的页面 if str(titleg) != 'None': title_only = titleg.group(1) # print(title_only) # 找不到标题,jav321找不到影片 else: num_fail += 1 record_fail(' >第' + str(num_fail) + '个失败!jav321找不到该车牌的信息:' + jav_raw_num + ',' + path_relative + '\n') continue # 【退出对该jav的整理】 # 去除xml文档和windows路径不允许的特殊字符 &<> \/:*?"<>| title_only = replace_xml_win(title_only) # 正则匹配 影片信息 开始! # 有大部分信息的html_web html_web = search(r'(h3>.+?)async', html_web).group(1) # 车牌 dict_nfo['车牌'] = jav_num = search(r'番.</b>: (.+?)<br>', html_web).group(1).upper() dict_nfo['车牌前缀'] = jav_num.split('-')[0] # 素人的title开头不是车牌 title = jav_num + ' ' + title_only # 给用户重命名用的标题是“短标题”,nfo中是“完整标题”,但用户在ini中只用写“标题” dict_nfo['完整标题'] = title_only # 处理影片的标题过长 if len(title_only) > int_title_len: dict_nfo['标题'] = title_only[:int_title_len] else: dict_nfo['标题'] = title_only