O script principal é: Desafio_v1.0.ipynb
O seguinte desafio pretende resolver uma série de perguntas associadas à base de dados que pode ser encontrada no site Center for Machine Learning and Intelligent Systems Fonte oficial do dataset : https://archive.ics.uci.edu/ml/datasets/bank+marketing Dados: https://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank.zip
Arquivos incluídos no link acima:
bank. csv: uma versão reduzida do conjunto de dados;
bank-full.csv: o conjunto completo;
bank-names.txt: com a descrição
As bases de dados encontran-se associadas aos artigos :
S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014
S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimaraes, Portugal, October, 2011. EUROSIS.
Os métodos de análise de sensibilidade e random forrest usados em > 1. podem ser vistos em:
Paulo Cortez, Mark J. Embrechts, Using sensitivity analysis and visualization techniques to open black box data mining models, Information Sciences 225 (2013) 1–17.
Os labels para jobs são remarcados como:
'0':'blue-collar', '1': 'services', '2': 'admin', '3':'entrepreneur', '4':'self-employed', '5':'technician', '6':'management', '6':'student', '7': 'retired', '8': 'housemaid', '9':'unemployed', '10':'Other'