Новости в нашем Телеграм канале Подписаться ×

Генеративный ИИ засорил интернет — теперь это мешает обучать новые модели

Генеративный ИИ засорил интернет — теперь это мешает обучать новые модели

Стремительный рост ChatGPT и других генеративных ИИ привёл к масштабному загрязнению интернета автоматически созданным контентом. Это вызывает тревогу среди исследователей, поскольку новые ИИ-модели начинают обучаться на уже сгенерированных данных, что напоминает «испорченный телефон» и может привести к так называемому «коллапсу модели» — постепенной деградации качества ИИ.

Издание The Register сравнивает ценность старых, «чистых» данных с довоенной сталью, не содержащей радиоактивных элементов. Эти данные, созданные до 2022 года, становятся особенно важными для обучения ИИ, поскольку они свободны от искажающего влияния генеративных моделей. Научный сотрудник Кембриджского университета Морис Чиодо подчёркивает, что доступ к таким источникам необходим для справедливой конкуренции между разработчиками ИИ.

Одной из пострадавших областей уже стала генерация дополненного поиска (RAG), где ИИ выдают менее надёжные и более рискованные ответы, опираясь на контент, ранее созданный другими ИИ. Это снижает точность и безопасность выдаваемой информации.

В качестве частичного решения Чиодо предлагает введение регулирования и обязательной маркировки ИИ-контента. Однако он признаёт, что реализовать подобные меры будет крайне сложно на практике.

Комментарии 0

Зарегистрируйтесь, чтобы оставлять комментарии

Вход

Заходите через социальные сети