def run():
    db_base.init_db()
    #通过数据库初始化币名称的关键词
    db_coin_list = db_base.get_all_coin()
    coin_base = {}
    for db_coin_row in db_coin_list:
        coin_base[db_coin_row[1]] = db_coin_row[0]
        coin_base[db_coin_row[2]] = db_coin_row[0]
        coin_base[db_coin_row[3]] = db_coin_row[0]
        for db_coin_item in db_coin_row:
            if type(db_coin_item) is not int:
                word_import.add_word_list.add(db_coin_item.upper())

    print("##############################1")
    for word in word_import.add_word_list:
        jieba.add_word(word.upper())
    #获取所有文章内容
    content_list = db_base.get_all_content(0)
    content_list = db_base.get_all_content(1)
    print("##############################2")
    max_size = 100000

    process = 0
    well_break = False
    error_count = 0
    for i in range(max_size):
        content_list = db_base.get_all_content(i)
        #遍历所有信息
        for row in range(len(content_list)):
            process += 1
            word_list = set(
                jieba.cut(content_list[row][1], cut_all=False, HMM=False))
            #移除要删除的文字
            for word in word_import.del_word_list:
                if word in word_list:
                    word_list.remove(word)
            #如果币种的关键词在分词中则得到id
            for item in coin_base:
                if item in word_list:
                    if db_base.insert_article2coinbase(coin_base[item],
                                                       content_list[row][0]):
                        error_count += 1
                    else:
                        return
                    break
            print(process)
        if len(content_list) == 0:
            break

        print("!!!!!!!!!!")


#run()
Esempio n. 2
0
def run():
    db_base.init_db()

    thread_list = [
        myThread(news_55coin.get_news, 10, db_base.insert_article),
        myThread(news_8btc.get_news, 10, db_base.insert_article),
        myThread(news_jinse.get_news, 10, db_base.insert_article),
        myThread(news_chainfor.get_news, 10, db_base.insert_article),
        myThread(news_chainnews.get_news, 10, db_base.insert_article)
        ]
    for i in range(len(thread_list)):
        thread_list[i].start()

    for i in range(len(thread_list)):
        thread_list[i].join()
import urllib.request
import json
import _thread
import threading
import time
import mysql.connector
from pyquery import PyQuery as pq
import db_base
db_base.init_db()


def url_open(url):
    #print(url)
    headers = {
        'User-Agent':
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'
    }
    req = urllib.request.Request(url=url, headers=headers)
    for i in range(10):
        try:
            response = urllib.request.urlopen(url=req,
                                              timeout=5).read().decode('utf-8')
            return response
        except:
            print("chainnewscrawl except:")


def run():
    response = url_open('https://api.huobi.pro/v1/common/symbols')
    json_data = json.loads(response)
    if json_data['status'] == 'ok':
Esempio n. 4
0
import jieba
import mysql.connector
import db_base
from pyquery import PyQuery as pq
#初始化数据库
db_base.init_db("localhost", "root", "", "coin")

#初始化需要屏蔽的词
del_word_list = set([
    '', '的', ' ', ',', ', ', ',', '<', '>', 'p', '/', '\u3000', '\t', '。', '和',
    '、', ';', ';', '"', '-', ':', '=', '\n', '&', '.', '&#', "“", "”", ":",
    '\xa0', '(', '(', ')', ')', '在', '是', '了', 's', 'g', 'br', 'span', 'quot',
    'style', 'px', 'font', 't', 'com', 'http', 'https', 'align', 'alt', 'png',
    'PNG', 'JPG', 'jpg'
] + [
    '将', '这', '也', '有', '中', '一个', '会', '可以', '上', '对', '为', '我们', '都', '不',
    '与', '就', 'color', 'img', '%', '并', 'b', 'left', 'rgb', 'size', '但', '年',
    '月', 'src', '可能', '到', '而', '其', '更', '进行', '你', '我', '等', '或', '被',
    'margin', '_', '没有', '多', '它', '日', '从', '?', '需要', '来', '他们', '人', '通过',
    '该', 'height', 'box', 'letter', 'spacing', '以', '这个', '这些', 'li', '如果',
    '使用', '新', '目前', '已经', '大', '就是', '还', '提供', '去', '于', '一种', '表示', '很',
    '下', 'Emoji', '一', '他', 'h2', '—', '让', '个', '能', '其他', '要', '因为', '说',
    '时', 'a', '!', '高', '自己', 'cdn', '认为', 'center', '后', '一些', '任何', 'sans',
    'serif', '向', 'important', '开始', 'sp', '很多', 'white', '由', '以及', '所有',
    'Sans', '做', '获得', '不是', '但是', '最', '方式', '这种', 'blockquote', '这样', 'S',
    '区', '?', 'UI', 'class', '给', '成为', '能够', '现在'
] + [
    '#', 'normal', 'Arial', '情况', '地', '至', '主要', '作为', '用', 'border',
    'sizing', '可', 'div', '那么', 'e', '什么', '非常', '包括', 'article', '因此', '方面',
    '者', 'jpeg', '未来', '同时', '对于', '所以', '正在', '不同', 'em', 'word', '由于', '前',
    '其中', '基于', '重要', '所', '矿', 'F', '还是', '如何', '存在', '不会', '解决', '则', '之间',