ДокладДата: 28.04 / Начало: 00:00 – Конец: 00:00

Как автоматизировать тестирование ИИ-агентов: бенчмарки, метрики, LLM-as-a-Judge

Зал 1

В процессах контроля качества AI-агентов уже сегодня назрел вопрос автоматизации. Классические автотесты плохо работают с недетерминированным поведением агентов, а ручная проверка не масштабируется. В свою очередь, LLM не только порождает проблемы, но и может помочь их решить, если делегировать проверку недетерминированных данных для LLM.

Автоматизация оценки качества через LLM-as-a-Judge и внедрение такого подхода в виде автотестов имеют как огромные плюсы, так и очень много нюансов, которые будут полезны всем, кто задумается: «А почему бы мне не написать автотесты на агента?»

Доклад будет полезен QA-инженерам, автоматизаторам и всем, кто столкнулся с задачей тестирования или разработки AI-агентов и задумался о регрессионном тестировании их поведения.

Спикеры

Артем Симешин
Сбер

Другие доклады по теме «AI»

Расписание

Как автоматизировать тестирование ИИ-агентов: бенчмарки, метрики, LLM-as-a-Judge

Спикеры

Артем Симешин

Другие доклады по теме «AI»