Skip to content

Примеры distributed machine learning с помощью сервиса AICloud

License

Notifications You must be signed in to change notification settings

sbercloud-ai/aicloud-examples

Repository files navigation

Примеры работы с платформой ML Space от Cloud.ru

В репозитории приведены примеры использования платформы ML Space для решения ML задач.

Model Training (обучение моделей)

Базовые примеры размещены в директории quick-start. Они иллюстрируют процесс обучения моделей одним из указанных способов:

  1. Напрямую из Jupyter Server, подключенного к GPU.

    Пример доступен по ссылке: Обучение модели в ноутбуке с GPU.

  2. Посредством отправки задачи обучения на кластер.

    Обучение модели через Training Job API на TensorFlow 1.

    Обучение модели через Training Job API на TensorFlow 2.

    Обучение модели через Training Job API на CPU кластере.

У каждого из этих способов обучения есть свои преимущества. Так при отправке задачи обучения на кластер можно задействовать 1000+ GPU, в случае обучения напрямую из Jupyter Server максимальное количество выделенных GPU — 16. Однако обучение из Jupyter Server на выделенных GPU проще и удобнее для пользователя (не требуется знакомство с библиотекой Horovod). Есть некоторые отличия в плане тарификации. При обучении из Jupyter Server на выделенных GPU взимается оплата до удаления сервера, даже если он не используется. При отправке задачи обучения на кластер пользователь платит за фактическое время исполнения задачи: от старта до окончания обучения.

Дополнительные примеры обучения моделей, доступные для использования:

  • В папке pytorch-example рассмотрен пример задачи распределенного обучения Pytorch-модели с двумя типами запуска: horovod (стандартный способ) и дополнительный тип запуска pytorch (он же Pytorch.Distributed).

Препроцессинг данных

  • Загрузка/выгрузка данных на S3 в стартовом примере.
  • Работа с Rapids, библиотекой, ускоряющей обработку датасетов на GPU.
  • С использованием ресурсов кластера Spark. В ноутбуке Spark_preproc.ipynb поясняется, как создать SparkSession и SparkContext, загрузить данные на S3 и выполнить препроцессинг этих данных.

AutoML

В стартовом ноутбуке для AutoML содержится объяснение, как обновить библиотеки autowoe и lightautoml, а также как загрузить туториалы из открытых репозиториев на GitHub для знакомства с функционалом библиотек.

Public API V2

В ноутбуке содержатся примеры того, как взаимодействовать с Public API V2, какие вводные для этого необходимы и т.д.