ДокладДата: 27.04 / Начало: 00:00 – Конец: 00:00

Тестирование LLM-приложений с DeepEval

Зал 2

Рассмотрим практику тестирования приложений, построенных на основе больших языковых моделей (LLM). Основной фокус — решение проблем оценки недетерминированных LLM-приложений с помощью специализированного инструмента DeepEval, который позволяет автоматизировать оценку качества работы LLM-приложений через подход LLM-as-a-Judge, а также применять различные метрики и тестовые сценарии. Доклад затронет основные концепции инструмента.

Также на примере кейса покажу, как интегрировать DeepEval в процесс разработки, чтобы оценивать релевантность ответов и контролировать качество системы.

Целевая аудитория — инженеры машинного обучения, разработчики AI-продуктов и QA-специалисты, сталкивающиеся с необходимостью обеспечения надежности и предсказуемости LLM-приложений.

Спикеры

Максим Максимов
red_mad_robot

Другие доклады по теме «AI»
Другие доклады по теме «Tools/Frameworks»

Расписание

Тестирование LLM-приложений с DeepEval

Спикеры

Максим Максимов

Другие доклады по теме «AI»

Другие доклады по теме «Tools/Frameworks»