Способы работы с кластерами Apache Spark™ в DataSphere
Сервис Yandex Data Processing позволяет разворачивать кластеры Apache Spark™. Вы можете использовать кластеры Yandex Data Processing, чтобы запускать распределенные обучения на кластерах.
Варианты развертывания кластеров
Чтобы работать в DataSphere с кластерами Yandex Data Processing, вы можете использовать:
Если у вас нет существующих кластеров Yandex Data Processing или кластер нужен на непродолжительное время, вы можете использовать временные кластеры Yandex Data Processing. Их можно создать с помощью:
- коннектора Spark (предпочтительный способ);
- шаблона Yandex Data Processing.
Все кластеры Yandex Data Processing вне зависимости от варианта развертывания тарифицируются по правилам сервиса Yandex Data Processing.
Настройки проекта DataSphere для работы с кластерами Yandex Data Processing
Для работы с кластерами Yandex Data Processing:
-
Укажите в настройках проекта следующие параметры:
- Каталог по умолчанию для интеграции с другими сервисами Yandex Cloud. В нем будет развернут кластер Yandex Data Processing в рамках текущих квот облака, а стоимость использования кластера будет списана с платежного аккаунта облака.
- Сервисный аккаунт с ролью
vpc.user, от имени которого DataSphere будет работать с сетью кластера Yandex Data Processing. - Подсеть для связи DataSphere с кластером Yandex Data Processing. Кластеру Yandex Data Processing необходим доступ в интернет, поэтому в подсети должен быть настроен NAT-шлюз. После указания подсети время выделения вычислительных ресурсов может быть увеличено.
-
Создайте сервисного агента:
-
Чтобы разрешить сервисному агенту работать в DataSphere, попросите администратора или владельца вашего облака выполнить команду в Yandex Cloud CLI:
yc iam service-control enable datasphere --cloud-id <идентификатор_облака>Где
--cloud-id— идентификатор облака, с которым вы будете работать в сообществе DataSphere. -
Создайте сервисный аккаунт с ролями:
dataproc.agent— для использования кластеров Yandex Data Processing.dataproc.admin— для создания кластеров из шаблонов Yandex Data Processing.vpc.user— для работы с сетью кластера Yandex Data Processing.iam.serviceAccounts.user— для создания ресурсов в каталоге от имени сервисного аккаунта.
-
В настройках сообщества в блоке Кластеры Spark нажмите Добавить сервисный аккаунт и выберите созданный сервисный аккаунт.
-
Важно
Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client.