示例#1
0
def Base_teste_treino():
    '''
    Importante código para separar teste e treinamento de bases
    '''
    conn = pymysql.connect("localhost", "root", "", "tw")
    c = conn.cursor()
    arq = Arquivo()
    al = AnaliseLexica()
    nome_arquivo = 'arquivos/treinamento.csv'
    nome_arquivo1 = 'arquivos/teste.csv'

    query = "SELECT id, id_tweet, tweet FROM selecionados_notrt_tb WHERE id=4216 OR id=7319 OR id=11542 OR id=11571 OR id=11764 OR id=14300 OR id=16303 OR id=19407 OR id=19439 OR id=21363 OR id=21577 OR id=22099"
    c.execute(query)

    lista = []
    while True:
        res = c.fetchall()
        if not res:
            break
        for result in res:
            tweet = al.Remocao_caracteres_Tweets(str(result[2]))
            lista.append(
                str(result[0]) + ';' + str(result[1]) + ';' + str(tweet))

    # treino = int(len(lista)*0.7)

    [print(i) for i in lista]

    arq.Gravar_Arquivo(lista[:treino], nome_arquivo)
    arq.Gravar_Arquivo(lista[treino:], nome_arquivo1)
示例#2
0
    def consulta_base(self, keywords, query='COMPLETA'):
        if query == 'COMPLETA':
            self.c.execute(self.query(keywords, ''))
        else:
            self.c.execute(self.query(keywords, query))

        lista = []
        arq = Arquivo()

        count = 0
        while True:
            res = self.c.fetchall()
            tamanho = len(res)
            if not res:
                break
            for result in res:
                if (self.Verifica_Dados(str(result[0]),
                                        'arquivos/ids_selecionados.txt')):
                    lista.append(str(result[0]))
                    terminal.printProgressBar(count, tamanho, length=50)
                    self.Inserir_selecionados(result[0], result[1], result[2],
                                              result[3], result[4], result[5],
                                              result[6], result[7], result[8],
                                              result[9], result[10],
                                              result[11], result[12],
                                              result[13])
                    count += 1

        arq.Gravar_Arquivo(lista, 'arquivos/ids_selecionados.txt')
        self.Fechar_Conexao()
        return count
示例#3
0
def Corrigir_Base_Dicionario(palavras):
    if type(palavras) == str:
        palavras = palavras.split()
    arq = Arquivo()
    arq.Gravar_Arquivo(palavras, 'arquivos/data/lsa/limpeza_feature_names.txt')
    print(
        '>> Método: Corrigir_Base_Dicionario <<\nType: %s Tamanho: %i Primeira Palavra: %s Ultima Palavra: %s'
        % (type(palavras), len(palavras), palavras[0], palavras[-1]))
示例#4
0
 def __init__(self):
     self.tfidf = TF_IDF()
     self.arq = Arquivo()
     self.tweets = []
     self.nome_arq_controle = 'arquivos/data/tf-idf/arq_controle.json'
     self.arq_controle = None
     self.vetor_tfidf = None
     self.feature_names = None
     self.Run()
示例#5
0
 def __init__(self):
     self.nome_arq_controle = 'arquivos/data/bow/arq_controle.json'
     self.arq_controle = None
     self.arq = Arquivo()
     self.bow = BagOfWords()
     self.vocabulario = None
     self.freq_vocabulario = None
     self.tweets = []
     self.tweets_limpos = []
     self.wc = WCloud()
     self.Run()
示例#6
0
 def __init__(self):
     self.arq = Arquivo()
     self.analise = AnaliseLexica()
     self.arquivo = self.arq.Carregar_Arquivo(
         'arquivos/arq_controle_mun_bra_ibge.csv')
     self.cidades = self.arq.Carregar_Arquivo(
         'arquivos/municipios_brasileiros_ibge.csv')
     self._ids_tweets_localizacao = self.arq.Carregar_Arquivo(
         'arquivos/data/lsa/_ids_tweets_localizacao.txt')
     self.arq_controle_cidades = {}
     self.cidades_validadas = []
     self.Carregar_arq_controle_cidades()
     self.Localizacoes()
示例#7
0
文件: lsa.py 项目: WANGOMES/visors
 def __init__(self):
     self.arq = Arquivo()
     self.feature_tweet = {}
     self.termos_especiais = {}
     self.arquivo_controle = {}
     self.matriz_termos = self.Carregar_Matriz('matriz_termos')
     self.matriz_topicos = self.Carregar_Matriz('matriz_topicos')
     self.ids_tweets_feature_topicos = self.arq.Carregar_Arquivo('arquivos/data/lsa/_ids_tweets_feature_topicos.txt')
     self.feature_topicos = self.Carregar_feature_topicos()
     self.last_id_tweet = 0
     self.TRUNCADO = 100
     # CARREGAR TWEETS
     self.body = self.Carregar_PKL('arquivos/data/bow/lista_tweets_limpos.pkl')[609:]
     self._LSA_()
示例#8
0
    def Verifica_Dados(self, id_table, nome_arquivo):
        if (len(self.Arquivo_Carregado) == 0 and not self.carregado):
            arq = Arquivo()
            lista = arq.Carregar_Arquivo(nome_arquivo)
            self.Arquivo_Carregado = lista
            self.carregado = True
        else:
            lista = self.Arquivo_Carregado
        count = 0
        for item in lista:
            item = item.rstrip()
            if (item == id_table):
                count += 1

        if count == 0:
            return True
        else:
            return False
示例#9
0
def Atualiza_Dict_Termos_especiais(inicializar=False):
    '''
    Atualiza o Dicionario de Termos Especiais.
    :parametro inicializar: inicializa o Dicionário de Termos Especiais, False como Padrão.
    '''
    arq = Arquivo()
    termos_especiais = {}

    def __Inicializa_Dict():
        aux = [
            'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
            'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'
        ]
        for i in aux:
            termos_especiais.update({i: None})

    if inicializar:
        __Inicializa_Dict()

    t = arq.Carregar_Arquivo_UTF8(
        'arquivos/data/lsa/termos_vulnerabilidade_risco_social.txt')
    lista, count = [], 0
    for key in termos_especiais.keys():
        for item in t:
            inicial = item[0]
            if inicial == key:
                count += 1
                lista.append(item)
        if len(lista) == 0:
            termos_especiais[key] = None
        else:
            termos_especiais[key] = lista.copy()
        lista.clear()

    with open('arquivos/data/lsa/termos_especiais.json', 'w',
              encoding='utf-8') as json_file:
        json.dump(termos_especiais, json_file, indent=4, ensure_ascii=False)
    print(
        '>> Método: Atualiza_Dict_Termos_especiais <<\nType: %s Arquivo: \'%s\' Tamanho: %i'
        % (type(termos_especiais), 'arquivos/data/lsa/termos_especiais.json',
           count))
示例#10
0
 def __init__(self):
     self.arq = Arquivo()
     self.consulta = Conexao()
     self.Run()
示例#11
0
 def __init__(self):
     self.data = []
     self.arq = Arquivo()