+
Все потоки
Поиск
Написать публикацию
Обновить

Комментарии 5

Очень круто !

Пара вопросов для разогрева:

  • Node Maintenance Operator - Вы в опенсурс вернули то, что там исправили и дописали ?

  • Были ли случаи, когда автоматика делала не то, что хотели, или приводила к более серьезному отказу, чем она должна была предотвратить?

Привет!

  • В NMO не контрибьюили, поскольку в результате наших правок поменялась сама концепция инструмента - есть сомнения, что она зайдет авторам. Наверное, стоит подумать о том, чтобы релизнуть как форк.

  • На ранних этапах была пара историй, когда связка инструментов работала не так, как ожидалось. Наиболее запомнившаяся была вызвана тем, NPD после ребута не мог заехать на ноду из-за taints, к которым у него не было tolerations. В результате conditions не обновлялись, и выздоровевшая нода по-прежнему считалась больной и висела закордоненной. Но мы заранее сделали алерт на это и быстро нашли причину. А такого, чтобы Auto Healing ухудшал ситуацию, не случалось. Я довольно много внимания уделил как раз тому, чтобы от механик не было вреда, когда все и так плохо. В худшем случае они просто отключаются.

Не используете Cluster API?

Там с этим попроще. Сломалась нода - пересоздать

Machine distribution budget, вот это всё.

Для новых кластеров используем. Но иногда пересоздание не поможет (например, при аппаратных неисправностях), а иногда избыточно (например, когда нужно просто рестартануть один из компонентов)

кнопка не работает...
кнопка не работает...
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载