Yappi Days: AI MeetUp 08.25
Изучаем тренды в развитии LLM через бенчмарки
Роман Куцев - Founder LLM Arena
Ещё вчера MMLU казался вершиной — а сегодня на арену выходят сложные диалоговые, экспертные и агентные бенчмарки. Метрики растут, усложняются и меняются вместе с самими моделями — и при этом ещё и задают направление всей индустрии.
В этом докладе:
-
проследим путь бенчмарков — от классических академических тестов до современных комплексных оценок;
-
разберём, почему одни метрики устаревают, а другие становятся драйвером новых исследований;
-
посмотрим, как растущие требования к LLM отражают ожидания пользователей и бизнеса.
Доклад будет интересен тем, кто работает с LLM, следит за их эволюцией или думает, как объективно измерить «ум» моделей в быстро меняющемся мире.
Human Digital Twin — как данные превращаются в сервисы
Сергей Курбанов - руководитель направления RnD в MWS
Сегодня данные о человеке — это не просто цифры и отчёты. Мы можем собрать их в единую цифровую модель — Human Digital Twin, персональный «системный промпт», с которым можно взаимодействовать так же, как с реальным человеком
Из доклада узнаете:
-
как мы формируем цифровую модель из данных компании;
-
превращаем в персональный «системный промпт»;
-
взаимодействуем с ней в тестовых сценариях.
Доклад будет интересен тем, кто работает с данными, AI-сервисами и продуктами, а также всем, кто задумывается о будущем взаимодействия человека и цифровых систем.