База знаний / видео

Вызовы в оценке генеративных текстовых моделей: задачи и категории

Мы все хорошо знаем, какие существуют методы оценки качества работы дискриминативных моделей, например, обычных классификаторов. Однако, когда речь заходит о генеративных моделях, будь то создание текста или изображений, всё становится не так очевидно.Во-первых, из-за многообразия генеративных задач тяжело выделить небольшое количество метрик и бенчмарков, на которых можно эффективно оценивать качество и общность базовой модели. А во-вторых, обычно в таких задачах не существует единственно правильного ответа, и иногда даже сложно отранжировать имеющиеся в распоряжении гипотезы. Всё это и многие другие сложности мы постараемся обсудить в ходе этой дискуссии.