В условиях активного развития распределённых систем особое значение приобретает своевременное выявление аномалий в работе сервисов [1]. Традиционные пороговые методы детектирования, используемые для выявления аномалий, зачастую оказываются недостаточными для сложных сценариев, связанных с изменением характера нагрузки, дрейфом распределений или редкими сбоями. В результате этого снижается надёжность распределённых систем.
В статье рассматривается подход к построению информационной системы выявления аномалий на основе статистических методов анализа временных рядов метрик микросервисов. Особое внимание уделено применению методов искусственного интеллекта и статистических тестов для повышения точности обнаружения аномального поведения сервисов. Предложенное решение ориентировано на интеграцию с современными практиками эксплуатации и направлено на повышение точности детекции аномалий.
Практическая значимость подхода заключается в повышении экономической эффективности эксплуатации цифровых сервисов за счет сокращения времени простоя и минимизации финансовых потерь.