def run(): db_base.init_db() #通过数据库初始化币名称的关键词 db_coin_list = db_base.get_all_coin() coin_base = {} for db_coin_row in db_coin_list: coin_base[db_coin_row[1]] = db_coin_row[0] coin_base[db_coin_row[2]] = db_coin_row[0] coin_base[db_coin_row[3]] = db_coin_row[0] for db_coin_item in db_coin_row: if type(db_coin_item) is not int: word_import.add_word_list.add(db_coin_item.upper()) print("##############################1") for word in word_import.add_word_list: jieba.add_word(word.upper()) #获取所有文章内容 content_list = db_base.get_all_content(0) content_list = db_base.get_all_content(1) print("##############################2") max_size = 100000 process = 0 well_break = False error_count = 0 for i in range(max_size): content_list = db_base.get_all_content(i) #遍历所有信息 for row in range(len(content_list)): process += 1 word_list = set( jieba.cut(content_list[row][1], cut_all=False, HMM=False)) #移除要删除的文字 for word in word_import.del_word_list: if word in word_list: word_list.remove(word) #如果币种的关键词在分词中则得到id for item in coin_base: if item in word_list: if db_base.insert_article2coinbase(coin_base[item], content_list[row][0]): error_count += 1 else: return break print(process) if len(content_list) == 0: break print("!!!!!!!!!!") #run()
def run(): db_base.init_db() thread_list = [ myThread(news_55coin.get_news, 10, db_base.insert_article), myThread(news_8btc.get_news, 10, db_base.insert_article), myThread(news_jinse.get_news, 10, db_base.insert_article), myThread(news_chainfor.get_news, 10, db_base.insert_article), myThread(news_chainnews.get_news, 10, db_base.insert_article) ] for i in range(len(thread_list)): thread_list[i].start() for i in range(len(thread_list)): thread_list[i].join()
import urllib.request import json import _thread import threading import time import mysql.connector from pyquery import PyQuery as pq import db_base db_base.init_db() def url_open(url): #print(url) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0' } req = urllib.request.Request(url=url, headers=headers) for i in range(10): try: response = urllib.request.urlopen(url=req, timeout=5).read().decode('utf-8') return response except: print("chainnewscrawl except:") def run(): response = url_open('https://api.huobi.pro/v1/common/symbols') json_data = json.loads(response) if json_data['status'] == 'ok':
import jieba import mysql.connector import db_base from pyquery import PyQuery as pq #初始化数据库 db_base.init_db("localhost", "root", "", "coin") #初始化需要屏蔽的词 del_word_list = set([ '', '的', ' ', ',', ', ', ',', '<', '>', 'p', '/', '\u3000', '\t', '。', '和', '、', ';', ';', '"', '-', ':', '=', '\n', '&', '.', '&#', "“", "”", ":", '\xa0', '(', '(', ')', ')', '在', '是', '了', 's', 'g', 'br', 'span', 'quot', 'style', 'px', 'font', 't', 'com', 'http', 'https', 'align', 'alt', 'png', 'PNG', 'JPG', 'jpg' ] + [ '将', '这', '也', '有', '中', '一个', '会', '可以', '上', '对', '为', '我们', '都', '不', '与', '就', 'color', 'img', '%', '并', 'b', 'left', 'rgb', 'size', '但', '年', '月', 'src', '可能', '到', '而', '其', '更', '进行', '你', '我', '等', '或', '被', 'margin', '_', '没有', '多', '它', '日', '从', '?', '需要', '来', '他们', '人', '通过', '该', 'height', 'box', 'letter', 'spacing', '以', '这个', '这些', 'li', '如果', '使用', '新', '目前', '已经', '大', '就是', '还', '提供', '去', '于', '一种', '表示', '很', '下', 'Emoji', '一', '他', 'h2', '—', '让', '个', '能', '其他', '要', '因为', '说', '时', 'a', '!', '高', '自己', 'cdn', '认为', 'center', '后', '一些', '任何', 'sans', 'serif', '向', 'important', '开始', 'sp', '很多', 'white', '由', '以及', '所有', 'Sans', '做', '获得', '不是', '但是', '最', '方式', '这种', 'blockquote', '这样', 'S', '区', '?', 'UI', 'class', '给', '成为', '能够', '现在' ] + [ '#', 'normal', 'Arial', '情况', '地', '至', '主要', '作为', '用', 'border', 'sizing', '可', 'div', '那么', 'e', '什么', '非常', '包括', 'article', '因此', '方面', '者', 'jpeg', '未来', '同时', '对于', '所以', '正在', '不同', 'em', 'word', '由于', '前', '其中', '基于', '重要', '所', '矿', 'F', '还是', '如何', '存在', '不会', '解决', '则', '之间',