Языковые модели могут перегружать себя мыслями и застревать в бесконечных циклах мыслей

Новое исследование выявило, что языковые модели могут зацикливаться на размышлениях вместо действий, особенно в интерактивных задачах, где они должны самостоятельно принимать решения и взаимодействовать со средой. Этот феномен, названный «дилеммой рассуждения-действия», показывает, что избыточное мышление может снижать эффективность моделей, даже если у них неограниченные вычислительные ресурсы.
Исследователи протестировали 19 моделей, включая GPT-4o и Claude 3.5 Sonnet, используя фреймворки SWE-bench Verified и OpenHands Framework. Они выявили три ключевых проблемы: застревание в бесконечном анализе, одновременное выполнение противоречивых действий и преждевременный отказ от решения. Интересно, что и рассуждающие, и нерассуждающие модели демонстрировали тенденцию к переосмыслению, но первые страдали от этого больше.
Хотя увеличение контекстного окна мало влияло на проблему, базовые вмешательства помогли сократить излишнее обдумывание. Генерация нескольких быстрых решений и выбор оптимального позволили ускорить работу на 25% и снизить вычислительные затраты на 43%. Кроме того, модели с функцией самовызова демонстрировали меньшую склонность к чрезмерному мышлению.
Неожиданно, модель DeepSeek-R1-671B оказалась менее подверженной переосмыслению, что исследователи связывают с особенностями ее обучения, включая отсутствие обучения с подкреплением для задач программирования. Эти находки подчеркивают необходимость баланса между размышлением и действием для повышения эффективности AI-агентов.
Зарегистрируйтесь, чтобы оставлять комментарии
Вход
Заходите через социальные сети
FacebookTwitter