
Максим Максимов
red_mad_robot
Рассмотрим практику тестирования приложений, построенных на основе больших языковых моделей (LLM). Основной фокус — решение проблем оценки недетерминированных LLM-приложений с помощью специализированного инструмента DeepEval, который позволяет автоматизировать оценку качества работы LLM-приложений через подход LLM-as-a-Judge, а также применять различные метрики и тестовые сценарии. Доклад затронет основные концепции инструмента.
Также на примере кейса покажу, как интегрировать DeepEval в процесс разработки, чтобы оценивать релевантность ответов и контролировать качество системы.
Целевая аудитория — инженеры машинного обучения, разработчики AI-продуктов и QA-специалисты, сталкивающиеся с необходимостью обеспечения надежности и предсказуемости LLM-приложений.

red_mad_robot