
Артем Зощук
Яндекс
LLM уже на том уровне, что идея «пусть модель сама пройдет мобильный сценарий как пользователь» выглядит реализуемой, естественно, хочется попробовать применить это в тестировании. Поговорим про инженерную реальность: скорость, стоимость, воспроизводимость и доверие к результату.
В докладе я расскажу путь, который мы прошли, чтобы построить агентную систему для выполнения мобильных сценариев и использовать ее именно для поиска багов. Начнем с постановки цели и выбора первых задач: с чего начать и как не ошибиться с ожиданиями от технологии.
Затем поговорим о выборе LLM: как мы сравнивали разные модели на одном бенче и почему итоговый выбор — это компромисс качества, времени и цены. Дальше разберем основную боль — недетерминизм: что в мобильном UI и в поведении агента делает прогоны нестабильными и какие практики помогают вернуть управляемость.
Обсудим «серые зоны» приложения вроде авторизации и внезапных попапов: почему они особенно сложны и как их обрабатывать системно. Поговорим про то, какие метрики качества ввести, как их замерять, как итеративно улучшать систему и где проходят границы применимости.

Яндекс