Сегодня events в Kubernetes подсказали, что одна нода ненадолго стала NotReady. Интересно...
Нашлась ошибка в crio: crictl ps -a обнаружил под, которого давно нет! В кубе его не видно, а на сервере присутствует. Контейнер просто не смог удалиться (о проблеме в GlusterFS раньше писал) Пришлось всех выгонять (cordon + drain), перезапуск и чистка /var/lib/containers/storage при stop crio.
Ещё раз убеждаюсь, что ротация серверов - важно. Но как же сложно это доказать коллегам...