Арсен Гумин
Компания: Сбер
Поймем области, в которых мы хотим применять практики Data Quality (далее DQ) и решать проблемы с данными. Кратко расскажу о нашей RecSys-платформе как о среде, в которой мы это развиваем. Основная цель — понять, что данные нужно тестировать, качество данных не получается внедрять сверху и оно прямо влияет на стабильность дата-продуктов.
Расскажу, какие проблемы возникают при попытке создать «дата-продукты». Что такое «проблема с данными»? Чем оценка качества компонентов системы в классической разработке отличается от Data Science? Определим, что же такое DQ — как термин и как подход. Покажу примеры внутри индустрии в качестве аргумента в защиту распространенности метода/подхода. Рассмотрим конкретный пример, чтобы убрать все оставшиеся непонимания, о чем это мы. Что нужно сделать, чтобы создать DQ-тест?
Расскажу, как внедряли DQ в нашу платформу. Какие проблемы встречали и что для себя решали. Что не взлетело, но казалось важным и востребованным. Как повышаем качество данных и оцениваем качество. Воркфлоу одного сценария. Какие бенефиты нам дает большое покрытие. Какие бенефиты бизнесу. Выводы.
Компания: Сбер
Компания: Цельс