
Артем Симешин
Сбер
В процессах контроля качества AI-агентов уже сегодня назрел вопрос автоматизации. Классические автотесты плохо работают с недетерминированным поведением агентов, а ручная проверка не масштабируется. В свою очередь, LLM не только порождает проблемы, но и может помочь их решить, если делегировать проверку недетерминированных данных для LLM.
Автоматизация оценки качества через LLM-as-a-Judge и внедрение такого подхода в виде автотестов имеют как огромные плюсы, так и очень много нюансов, которые будут полезны всем, кто задумается: «А почему бы мне не написать автотесты на агента?»
Доклад будет полезен QA-инженерам, автоматизаторам и всем, кто столкнулся с задачей тестирования или разработки AI-агентов и задумался о регрессионном тестировании их поведения.

Сбер