Будущее ИИ: что произойдет, если они обучатся на собственных данных?

В основе «коллапса модели» лежит загрязнение обучающих данных контентом, созданным ИИ. Это приводит к искажениям реальности и увеличению числа ошибок в ответах моделей. Например, нейросети могут порождать убедительные, но полностью вымышленные ответы, так называемые «галлюцинации».

В современном мире искусственный интеллект занимает все более значимое место в процессе создания контента. Однако возникает вопрос: каковы последствия, когда ИИ начинает генерировать и распространять контент по всему интернету, замещая традиционные источники данных, созданные людьми?

Исследователи из Великобритании и Канады подчеркивают, что использование данных, сгенерированных моделями ИИ в обучении, ведет к серьезным проблемам. Этот процесс, известный как «коллапс модели», с течением времени приводит к ухудшению качества моделей. «Мы удивлены, насколько быстро происходит коллапс модели», — говорит Илья Шумайлов, ведущий автор исследования (VentureBeat — Understanding Model Collapse in AI).

Тед Чан, автор повести «История вашей жизни», которая послужила основой для фильма «Прибытие», подчеркивает снижение качества искусственного интеллекта. Он сравнивает эту проблему с увеличением артефактов при многократном копировании изображения JPEG.

Другой способ взглянуть на проблему — вспомнить фильм 1996 года «Множественность» с Майклом Китоном в главной роли, в котором скромный человек клонирует себя, а затем клонирует клонов, каждый из которых приводит к экспоненциальному снижению уровня интеллекта и росту глупости.

Для предотвращения ухудшения качества моделей исследователи рекомендуют сохранять оригинальные данные, созданные людьми, и периодически переобучать модели на них. Также важно включать в обучение новые, чистые наборы данных, созданные человеком, чтобы избежать искажений и ошибок.

Эти выводы подчеркивают важность сохранения чистоты и разнообразия обучающих данных для устойчивого развития генеративных технологий. В будущем контент, созданный людьми, станет еще более ценным как источник первоначальных данных для обучения ИИ. Это требует от индустрии искусственного интеллекта улучшенных методологий и стратегий, направленных на управление качеством данных и предотвращение «коллапса модели».

Таким образом, понимание и преодоление вызовов, связанных с использованием ИИ в создании контента, играют ключевую роль в будущем развитии технологий и общества.