ИИ тупеет от общения с людьми
Но теперь всё стало не так смешно. Под катом!

Серьезное исследование показывает, что июньская версия GPT-4 объективно хуже версии, выпущенной в марте, в части выполнения некоторых задач.
Команда оценила модели, используя набор данных из 500 задач, в которых модели должны были выяснить, является ли данное целое число простым. В марте GPT-4 правильно ответил на 488 из этих вопросов. В июне у него было только 12 правильных ответов. С 97,6% вероятность успеха снизилась до 2,4%! И дальше только хуже.
Команда использовала Chain-of-Thought, чтобы помочь модели объяснить:
«Является ли 17077 простым числом? Думайте шаг за шагом».
Цепочка мыслей — популярная техника, которая значительно улучшает ответы. К сожалению, последняя версия GPT-4 не генерировала промежуточных шагов и вместо этого сразу неправильно давала простой ответ «Нет».
Генерация кода также ухудшилась.
Команда создала набор данных с 50 простыми задачами из LeetCode и измерила, сколько ответов GPT-4 выполнялись без каких-либо изменений. Мартовская версия успешно справилась с 52% проблем, но при использовании июньской модели этот показатель упал до жалких 10%.
Почему это происходит?
Ученые предполагают, что OpenAI постоянно вносит в себя изменения, но никто не знает, как работает этот процесс, и как система оценивает, улучшаются модели или регрессируют.
Это тревожный сигнал для всех, кто создает приложения, основанные на GPT-4.