30.05.2024, 14:46

Масштабная утечка внутренней документации Google. Поисковик подтверждает достоверность рассекреченных материалов

Масштабная утечка внутренней документации Google позволила SEO-специалистам заглянуть под капот поисковика, выяснив много нового о его самом главном коммерческом секрете: как именно ранжируются сайты в выдаче. Выяснилось, что компания, рассказывая о принципах работы своего поискового алгоритма, умалчивает о многих важных моментах, а иногда и просто врет, утверждая, что главным ключом к успеху в поиске является качество контента. В поисковике неохотно подтвердили достоверность рассекреченных материалов, но призвали не делать неправильных выводов.

© Sarah Blocksidge на Pexels

SEOкретные материалы

Проработавший в индустрии SEO (search engine optimisation, оптимизация под поисковики) более десяти лет эксперт Рэнд Фишкин, рассказал на этой неделе, что источник передал ему 2500 страниц конфиденциальных документов Google. Утечка содержит предназначенные для сотрудников поисковика сведения о том, какую информацию и с помощью каких инструментов Google собирает с интернет-страниц, сайтов и из пользовательских запросов для формирования списка ссылок в ответ на пользовательский запрос. Эти механизмы — а их, как минимум, пара сотен — потенциально способны не только решить судьбу любого сайта, но и определить, как выглядит для пользователей интернет в целом.

Рэнд Фишкин высказал надежду, что публикация материалов поможет противостоять лжи, которую сотрудники поисковика распространяли о работе своего алгоритма. Собственный анализ утечки представил еще один SEO-специалист, Майк Кинг — и, вероятно, это только начало, так как объем материалов огромен, и на глубокий анализ всех деталей уйдет время.

В начале был PageRank

PageRank – первый алгоритм, разработанный в Google для своего поисковика в конце 1990-х — служит для определения значимости веб-страниц в интернете. Каждая страница связана с другими через ссылки. PageRank работает, оценивая эти ссылки как своего рода голоса за определённую страницу. Чем больше в сети ссылок на страницу, тем выше её значимость. Если на страницу ссылается авторитетный сайт (например, крупное новостное издание), это придаст ей больше веса, чем ссылка с малоизвестного блога. В результате страницы, на которые ссылаются другие важные страницы, получают более высокий рейтинг. Исходно для формирования выдачи Google использовался именно PageRank, однако затем были внедрены и другие алгоритмы — в том числе и для того, чтобы избежать манипулирования результатами.

В последние годы Google постоянно критиковали за ухудшение качества результатов поиска: в них растет доля ссылок на мусорные сайты с некачественным контентом, специальным образом оптимизированные их владельцами для попадания на первые строчки поисковой выдачи. В ответ на запросы СМИ и экспертов представители поисковика неизменно заявляли, что такие утверждения не соответствуют официальному руководству Google по SEO-оптимизации для владельцев сайтов.

Неудобная правда

Ряд деталей в утекших документах ставят под сомнение достоверность публичных заявлений Google о том, как работает поиск. «Слово ‘солгали’ жесткое, но это единственное точное слово в данном случае, — пишет Майк Кинг. — Хотя я не виню публичных представителей Google за стремление защитить конфиденциальную информацию, я возражаю против их попыток активно дискредитировать людей в мире маркетинга, технологий и журналистики, которые публикуют воспроизводимые открытия из области SEO».

Вот один из самых ярких примеров: в Google неоднократно заявляли, что не применяют для ранжирования результатов информацию о поведении пользователей в своем браузере Chrome с глобальной аудиторией без малого в 3,5 миллиарда пользователей и не применяют для ранжирования информацию о кликах. В утечке нашлось сразу несколько подтверждений тому, что это не так.

Представители поисковика также отрицали, что метрика EEAT (experience, expertise, authoritativeness, trustworthiness — опыт, экспертиза, авторитетность, достоверность), применяемая для оценки качества поисковых результатов, является одним из факторов ранжирования. Однако Майк Кинг пишет, что обнаружил в конфиденциальных документах поисковика описания функций алгоритма, фиксирующих имя автора в новостных и научных статьях. Этот не доказывает однозначно, что имя применяется для ранжирования, но однозначно говорит о важности этого параметра для поисковика.

Выяснилось, что как минимум по некоторым чувствительным темам — таким как пандемия коронавируса или президентские выборы в США в 2024 году — Google вмешивался в выдачу вручную и создавал «белые списки» сайтов, чтобы отсекать ресурсы с дезинформацией. В компании отрицали, что новые сайты, для которых пока не набралось достаточно данных о достоверности, сначала попадают в «песочницу», где для их оценки применяются не такие правила, как для оценки уже зарекомендовавших себя ресурсов. Однако в документации нашли параметр hostAge, который как раз и используется для борьбы со «свежим спамом».

Проанализировавшие утечку из Google SEO-эксперты приходят к мнению, что в реальности на позицию сайта в выдаче сейчас в гораздо большей степени влияют так называемые поведенческие факторы — клики пользователей и их навигация по сайту, чем контент сайта и ссылки на него с других ресурсов. Поисковик также учитывает при ранжировании размер бренда сайта — насколько часто его упоминают, даже без прямых гиперссылок, на других страницах. В результате новым и нишевым ресурсам, даже если их контент качественный, пробиться в первые строчки выдачи только за счет контента, без SEO-манипуляций, нереально.

В похожей ситуации недавно оказался и российский «Яндекс». В январе 2023 года в были опубликованы 45 гигабайт исходного кода из различных сервисов поисковика, из которых SEO-специалисты узнали для себя много нового. В том числе — что поведенческие факторы (высокий CTR, последний клик, время на сайте и показатель отказов) при ранжировании в «Яндексе» играют значительно большую роль, чем в Google, чрезмерная доля платного трафика на сайте снижает его рейтинг, а повышают — добавление пользователями страниц в закладки, наличие у бренда верифицированных страниц в соцсетях и грамотное использование встроенных коротких видео с TikTok, YouTube и других платформ.

Контент больше не король

В Google долго не реагировали на многочисленные просьбы журналистов прокомментировать утечку. В среду вечером, спустя двое суток после публикации Фишкина, представитель Google Дэвис Томпсон в письме журналисту The Verge все же подтвердил: документация настоящая. Однако тут же постарался принизить ее значимость.

«Мы предостерегаем от неправильных выводов о поиске на основе вырванной из контекста, устаревшей или неполной информации, — написал Томпсон в электронном письме для The Verge. — Мы делились подробными сведениями о том, как работает поиск и какие факторы учитывают наши системы, при этом мы также работаем над защитой наших результатов от манипуляций».

Тем не менее, обнародованная информация уже вызвала эффект разорвавшейся бомбы в индустрии поисковой оптимизации, маркетинга и интернет-СМИ. Google много лет тщательно охраняет секреты работы своего поискового алгоритма, но эти документы — наряду с недавними показаниями в антимонопольном деле Министерства юстиции США против поисковика — проливают больше света на то, какие сигналы и как Google учитывает при ранжировании веб-сайтов.

Решения, которые Google принимает в области поиска, затрагивают всех, кто полагается на интернет для ведения бизнеса: от мелких независимых издателей до ресторанов и интернет-магазинов. Это привело к формированию целой индустрии SEO-оптимизации, участники которой пытаются разгадать алгоритм или перехитрить его, но часто предлагают клиентам противоречивые советы и решения. Представители поисковика неизменно комментируют такие вопросы неопределенно и уклончиво, так что утечка документации вносит ясность по многим моментам.

«Это самая значимая утечка про поиск Google за последние 10-15 лет, — написал в своем телеграм-канале IT-эксперт, бывший директор по распространению технологий «Яндекса» Григорий Бакунов. — Очень вероятно, что Google часто врет, когда публично рассказывает о поиске. Скорее всего, надо переставать верить, что «content is king» («всем правит контент». — ADPASS), кликбейт и фермы ботов — вот нынешний путь к успеху в SEO».

Авторы:
Николай Белый
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram