ИИ задним числом: искусственный интеллект ошибается в пользу искусственных новых данных
Большие языковые модели, которые уже почти заменили стандартные поисковые алгоритмы, систематически предпочитают более новые тексты, выяснили исследователи из Университета Васэда (Япония) и Гонконгского политеха. Для того, чтобы ИИ понял, что текст новый в него достаточно добавить дату. При этом даже если эта дата взята с потолка, ChatGPT-4 или LLaMA считают такой материал более релевантным. Для SEO-специалистов это тревожный сигнал: ИИ-алгоритмы поисковых систем могут переоценивать «освежённые» страницы, оставляя качественный, но старый контент за бортом.
Фотография Steve Johnson / Unsplash
Чтобы проверить, насколько языковые модели подвержены «предвзятости к новизне» (recency bias), учёные использовали TREC Deep Learning Track — это стандартные тестовые наборы текстов, на которых оценивается работа поисковых систем и языковых моделей ранжирования.
TREC (Text REtrieval Conference) — международная инициатива, созданная ещё в 90-е годы при участии Национального института стандартов и технологий США (NIST). Она служит своего рода «олимпиадой» для систем поиска. Каждый год TREC публикует несколько тематических треков — наборов коротких текстов и поисковых запросов, по которым можно проверять, насколько алгоритмы правильно определяют релевантность документов. Например, есть треки по медицинскому поиску, по обработке новостей, по юридическим текстам и т. д.
Один из таких треков — Deep Learning Track (DL Track). Он используется для оценки того, как хорошо нейросетевые модели — в том числе большие языковые — умеют ранжировать тексты по смыслу. В этих наборах хранятся тысячи текстов («пассажей») — небольших фрагментов статей и новостей. Для каждого фрагмента заранее известно, насколько он релевантен конкретному поисковому запросу: это определяют эксперты вручную.
Для тестов всегда есть «золотой стандарт» — набор человеческих оценок релевантности. То есть заранее известно, какие тексты «в тему», а какие нет. Когда кто-то делает новую поисковую модель, он прогоняет её по этому же датасету и смотрит: насколько выдача совпадает с человеческими оценками.
Как ставили эксперимент
Именно на таких данных исследователи и построили свой эксперимент. Они взяли запросы и тексты из двух наборов — TREC DL21 и TREC DL22, соответствующих 2021 и 2022 годам.
Каждый пассаж выглядел как короткий абзац вроде: «Artificial intelligence models are increasingly being used for content generation and search optimization» (Модели искусственного интеллекта всё чаще используются для создания контента и оптимизации поиска).
Учёные к каждому такому тексту добавили выдуманную дату публикации — например: Published on (опубликовано): 2010/04/01 или Published on: 2024/11/15. Никакого отношения к содержанию эта дата не имела: она подставлялась случайно или по логике — например, чем ниже в изначальном списке был документ, тем новее дата.
После этого языковым моделям давали промпт: «You are RankLLM, an intelligent assistant that can rank passages based on their relevancy to the query» («Ты — интеллектуальный ассистент, который умеет ранжировать тексты по степени их релевантности запросу. Получи запрос и список фрагментов, расположи их от наиболее до наименее релевантных»).
То есть модель не генерировала ответы, а просто сортировала набор уже готовых пассажей по степени их соответствия запросу.
Далее ИИ передавали реальные поисковые запросы, например: «how does machine learning improve medical diagnosis» (как машинное обучение улучшает медицинскую диагностику) или «causes of inflation in 2021» (причины инфляции в 2021 году).
Модели должна была расставить тексты по порядку, не зная, что даты фиктивные. Затем исследователи сравнивали получившиеся рейтинги с исходными и проверяли, изменился ли средний год публикации в верхних позициях.
Что показали результаты
Во всех случаях языковые модели поднимали наверх более свежие тексты.
Средний год публикации в топ-10 сдвигался вперед на 4,78 года, то есть если раньше в десятку попали документы условно 2013, 2014, 2012 годов, то после добавления даты публикации модель стала отдавать предпочтение текстам с метками вроде 2017–2019 годов. Отдельные документы могли взлетать на 95 позиций вверх только из-за того, что выглядели для ИИ новее.
Что значит сдвиг на 4,78 года
Когда исследователи пишут, что выдача «сдвинулась на 4,78 года вперёд», это означает, что модели стали отдавать предпочтение более свежим текстам. До эксперимента средний год публикации документов в первой десятке был примерно 2015-й, а после того как языковые модели заново распределили результаты, этот показатель вырос до 2019,78. Разница в 4,78 года, показывает, насколько «омолодилась» выдача.
Иными словами, языковые модели начали ставить новейшие материалы выше старых, даже если по смыслу оба текста были одинаково точными и полезными. Это и есть проявление предвзятости к новизне (recency bias) — склонности системы считать, что если документ поновее, значит, он лучше. На практике это выглядит просто: между статьёй 2016 года и аналогичной публикацией 2023-го модель почти всегда выберет более новую, даже если в ней нет ничего принципиально нового.
Даже самые устойчивые системы, вроде GPT-4o или Qwen-2.5–72B, смешали результаты примерно на 1–1,5 года вперед, а более компактные модели, такие как LLaMA-3–8B, — на четыре года и больше.
В тестах, где сравнивались два одинаково релевантных текста, до 25% решений моделей менялись, если один из них искусственно получал свежую дату. То есть модели воспринимали «новизну» как доказательство актуальности — даже если содержание оставалось тем же.
Авторы исследования отмечают, что размер модели снижает эффект, но не устраняет его полностью: чем крупнее LLM, тем слабее предвзятость, но «любовь к новому» сохраняется у всех.
Почему это важно для SEO
Поисковые алгоритмы давно учитывают recency signals (сигналы новизны/свежести): страницы, недавно обновленные, чаще попадают в топ-выдачи, потому что пользователи предпочитают свежий контент. Но до недавних времен они учитывались только первым «слоем» поисковых систем, когда проходит так называемое «retrieval» («извлечение кандидатов») из всего массива данных. На этом уровне задача поисковых алгоритмов не идеально расставить всё по местам, а выбрать 100–1000 потенциально подходящих документов из огромного индекса (в котором их может быть миллиарды).
Но в эпоху языковых моделей ситуация становится сложнее. Когда поисковые системы используют LLM как второй этап отбора (reranking), именно эти модели решают, какой документ «лучше подходит» под запрос. Если они воспринимают дату как один из признаков релевантности, старые тексты — даже экспертные и качественные — начинают терять позиции.
Фактически, исследование показывает, что LLM можно «уговорить» считать документ важным, просто добавив свежую дату или фразу «обновлено сегодня». Это напоминает старую SEO-практику времён keyword stuffing (начинка ключевыми словами), только вместо слов теперь работает время.
В результате рынок контента может столкнуться с новым перекосом: сайты начнут искусственно «освежать» страницы, чтобы понравиться ИИ-алгоритмам. Для пользователей это означает обилие поверхностных апдейтов, а для поисковиков — риск потерять точность и разнообразие выдачи.
Гипотеза Есильюрта
Любопытно, что полученные результаты совпадают с гипотезой исследователя Метехана Есильюрта (Metehan Yesilyurt). В августе 2025 года он объявил, что в конфигурационных файлах ChatGPT присутствует параметр use_freshness_scoring_profile: true, который может усиливать влияние свежести контента при ранжировании. По его версии, этот параметр заставляет систему оценивать актуальность документа в зависимости от темы запроса: например, если человек ищет «курс евро к рублю» — приоритет получают свежие данные, а если запрос касается «биографии Александра Пушкина» — фактор времени не играет роли.
Гипотеза Есильюрта пока не подтверждена официально, но её логика перекликается с выводами японских и гонконгских исследователей: даже самые продвинутые языковые модели склонны считать, что новое — значит лучшее.