Находится в папке Classes. Считывает файлы из указанной папки и создает датасеты признаков для uplift. Основная идея - режим low_memory для обработки всех данных, если память не позволяет читать файл целиком.
Основные функции:
- create_features для создания датасетов с признаками
- concat_features_sets для объединения датасетов, если был использован режим low_memory.
Класс, который загружает данные для работы с моделями, содержит параметры моделей и вспомогательные функции для uplift моделирования.
- uplift_score - для подсчета uplift score
- create_classes - для создания дополнительной цели за счет классификации по treatment_flg и target
Класс для запуска моделей под избранную цель. Опирается на класс Models_Fundamets. Содержит в себе три модели: xgb, lgb, cat. Основная идея заключена в функции upgrade_data, в которую можно передать цели для предсказания по каждой модели. И в зависимости от режима новые данные или добавятся к исходным данным (mode='boost'), или образуют новый датасет (mode='stack')
Класс с моделями для uplift. Каждая из функций содержит в себе по две модели (xgb, lgb, cat), которые настроены на бинарную классификацию по target при treatment_flg=0 и treatment_flg=1
Пример использования класса Features_Generator
Пример простого использование класса с моделями для предсказания uplift, а также идеи для дальнейшего улучшения результата