
Александр Волков
Точка Банк
LLM-ассистенты все чаще появляются в продуктах, и один из самых популярных способов их внедрения сегодня — Retrieval Augmented Generation (RAG).
На воркшопе разберем, как устроен такой AI-ассистент, и соберем простой RAG-бот на основе программы конференции Heisenbug.
Покажу, как работает retrieval, как формируется контекст для модели и почему даже корректно собранный RAG может отвечать нерелевантно или уверенно ошибаться.
Во второй части в формате доклада поговорим о том, как оценивать качество ответов AI-ассистентов: разберем типовые проблемы с контекстом, релевантностью и галлюцинациями и обсудим, почему классические подходы к тестированию здесь не работают.
Рассмотрим практические подходы к evaluation — от ручных проверок и golden dataset до использования LLM-as-a-Judge.
В результате получим не только рабочий пример AI-ассистента с RAG, но и практическое понимание того, как тестировать и оценивать LLM-based-системы в реальных продуктах.

Точка Банк