def Base_teste_treino(): ''' Importante código para separar teste e treinamento de bases ''' conn = pymysql.connect("localhost", "root", "", "tw") c = conn.cursor() arq = Arquivo() al = AnaliseLexica() nome_arquivo = 'arquivos/treinamento.csv' nome_arquivo1 = 'arquivos/teste.csv' query = "SELECT id, id_tweet, tweet FROM selecionados_notrt_tb WHERE id=4216 OR id=7319 OR id=11542 OR id=11571 OR id=11764 OR id=14300 OR id=16303 OR id=19407 OR id=19439 OR id=21363 OR id=21577 OR id=22099" c.execute(query) lista = [] while True: res = c.fetchall() if not res: break for result in res: tweet = al.Remocao_caracteres_Tweets(str(result[2])) lista.append( str(result[0]) + ';' + str(result[1]) + ';' + str(tweet)) # treino = int(len(lista)*0.7) [print(i) for i in lista] arq.Gravar_Arquivo(lista[:treino], nome_arquivo) arq.Gravar_Arquivo(lista[treino:], nome_arquivo1)
def consulta_base(self, keywords, query='COMPLETA'): if query == 'COMPLETA': self.c.execute(self.query(keywords, '')) else: self.c.execute(self.query(keywords, query)) lista = [] arq = Arquivo() count = 0 while True: res = self.c.fetchall() tamanho = len(res) if not res: break for result in res: if (self.Verifica_Dados(str(result[0]), 'arquivos/ids_selecionados.txt')): lista.append(str(result[0])) terminal.printProgressBar(count, tamanho, length=50) self.Inserir_selecionados(result[0], result[1], result[2], result[3], result[4], result[5], result[6], result[7], result[8], result[9], result[10], result[11], result[12], result[13]) count += 1 arq.Gravar_Arquivo(lista, 'arquivos/ids_selecionados.txt') self.Fechar_Conexao() return count
def Corrigir_Base_Dicionario(palavras): if type(palavras) == str: palavras = palavras.split() arq = Arquivo() arq.Gravar_Arquivo(palavras, 'arquivos/data/lsa/limpeza_feature_names.txt') print( '>> Método: Corrigir_Base_Dicionario <<\nType: %s Tamanho: %i Primeira Palavra: %s Ultima Palavra: %s' % (type(palavras), len(palavras), palavras[0], palavras[-1]))
def __init__(self): self.tfidf = TF_IDF() self.arq = Arquivo() self.tweets = [] self.nome_arq_controle = 'arquivos/data/tf-idf/arq_controle.json' self.arq_controle = None self.vetor_tfidf = None self.feature_names = None self.Run()
def __init__(self): self.nome_arq_controle = 'arquivos/data/bow/arq_controle.json' self.arq_controle = None self.arq = Arquivo() self.bow = BagOfWords() self.vocabulario = None self.freq_vocabulario = None self.tweets = [] self.tweets_limpos = [] self.wc = WCloud() self.Run()
def __init__(self): self.arq = Arquivo() self.analise = AnaliseLexica() self.arquivo = self.arq.Carregar_Arquivo( 'arquivos/arq_controle_mun_bra_ibge.csv') self.cidades = self.arq.Carregar_Arquivo( 'arquivos/municipios_brasileiros_ibge.csv') self._ids_tweets_localizacao = self.arq.Carregar_Arquivo( 'arquivos/data/lsa/_ids_tweets_localizacao.txt') self.arq_controle_cidades = {} self.cidades_validadas = [] self.Carregar_arq_controle_cidades() self.Localizacoes()
def __init__(self): self.arq = Arquivo() self.feature_tweet = {} self.termos_especiais = {} self.arquivo_controle = {} self.matriz_termos = self.Carregar_Matriz('matriz_termos') self.matriz_topicos = self.Carregar_Matriz('matriz_topicos') self.ids_tweets_feature_topicos = self.arq.Carregar_Arquivo('arquivos/data/lsa/_ids_tweets_feature_topicos.txt') self.feature_topicos = self.Carregar_feature_topicos() self.last_id_tweet = 0 self.TRUNCADO = 100 # CARREGAR TWEETS self.body = self.Carregar_PKL('arquivos/data/bow/lista_tweets_limpos.pkl')[609:] self._LSA_()
def Verifica_Dados(self, id_table, nome_arquivo): if (len(self.Arquivo_Carregado) == 0 and not self.carregado): arq = Arquivo() lista = arq.Carregar_Arquivo(nome_arquivo) self.Arquivo_Carregado = lista self.carregado = True else: lista = self.Arquivo_Carregado count = 0 for item in lista: item = item.rstrip() if (item == id_table): count += 1 if count == 0: return True else: return False
def Atualiza_Dict_Termos_especiais(inicializar=False): ''' Atualiza o Dicionario de Termos Especiais. :parametro inicializar: inicializa o Dicionário de Termos Especiais, False como Padrão. ''' arq = Arquivo() termos_especiais = {} def __Inicializa_Dict(): aux = [ 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z' ] for i in aux: termos_especiais.update({i: None}) if inicializar: __Inicializa_Dict() t = arq.Carregar_Arquivo_UTF8( 'arquivos/data/lsa/termos_vulnerabilidade_risco_social.txt') lista, count = [], 0 for key in termos_especiais.keys(): for item in t: inicial = item[0] if inicial == key: count += 1 lista.append(item) if len(lista) == 0: termos_especiais[key] = None else: termos_especiais[key] = lista.copy() lista.clear() with open('arquivos/data/lsa/termos_especiais.json', 'w', encoding='utf-8') as json_file: json.dump(termos_especiais, json_file, indent=4, ensure_ascii=False) print( '>> Método: Atualiza_Dict_Termos_especiais <<\nType: %s Arquivo: \'%s\' Tamanho: %i' % (type(termos_especiais), 'arquivos/data/lsa/termos_especiais.json', count))
def __init__(self): self.arq = Arquivo() self.consulta = Conexao() self.Run()
def __init__(self): self.data = [] self.arq = Arquivo()