Доклад

Как автоматизировать тестирование ИИ-агентов: бенчмарки, метрики, LLM-as-a-Judge

В процессах контроля качества AI-агентов уже сегодня назрел вопрос автоматизации. Классические автотесты плохо работают с недетерминированным поведением агентов, а ручная проверка не масштабируется. В свою очередь, LLM не только порождает проблемы, но и может помочь их решить, если делегировать проверку недетерминированных данных для LLM.

Автоматизация оценки качества через LLM-as-a-Judge и внедрение такого подхода в виде автотестов имеют как огромные плюсы, так и очень много нюансов, которые будут полезны всем, кто задумается: «А почему бы мне не написать автотесты на агента?»

Доклад будет полезен QA-инженерам, автоматизаторам и всем, кто столкнулся с задачей тестирования или разработки AI-агентов и задумался о регрессионном тестировании их поведения.

Спикеры

Доклады