Комментарии 5
Очень круто !
Пара вопросов для разогрева:
Node Maintenance Operator - Вы в опенсурс вернули то, что там исправили и дописали ?
Были ли случаи, когда автоматика делала не то, что хотели, или приводила к более серьезному отказу, чем она должна была предотвратить?
Привет!
В NMO не контрибьюили, поскольку в результате наших правок поменялась сама концепция инструмента - есть сомнения, что она зайдет авторам. Наверное, стоит подумать о том, чтобы релизнуть как форк.
На ранних этапах была пара историй, когда связка инструментов работала не так, как ожидалось. Наиболее запомнившаяся была вызвана тем, NPD после ребута не мог заехать на ноду из-за taints, к которым у него не было tolerations. В результате conditions не обновлялись, и выздоровевшая нода по-прежнему считалась больной и висела закордоненной. Но мы заранее сделали алерт на это и быстро нашли причину. А такого, чтобы Auto Healing ухудшал ситуацию, не случалось. Я довольно много внимания уделил как раз тому, чтобы от механик не было вреда, когда все и так плохо. В худшем случае они просто отключаются.
Не используете Cluster API?
Там с этим попроще. Сломалась нода - пересоздать
Machine distribution budget, вот это всё.
Как мы в Авито автоматически лечим ноды в Kubernetes