Claude 3.5 Sonnet умеет анализировать как текст, так и изображения, при этом генерирует только текст (в том числе в виде программного кода). Это самая производительная модель Anthropic на сегодняшний день — по крайней мере, на бумаге. По нескольким ИИ-тестам из области понимания текста, программирования, математики и компьютерного зрения новинка превосходит модель, которую она заменяет, Claude 3 Sonnet, и опережает предыдущую флагманскую модель Anthropic, Claude 3 Opus.
Особенно это заметно в визуальных задачах. Claude 3.5 Sonnet может точнее, чем Claude 3 Opus, интерпретировать диаграммы и графики и расшифровывать текст с некачественных изображений — например, фотографий с искажениями и визуальными артефактами. Это может быть важным, например, для ритейлеров, которые экспериментируют с использованием ИИ для видеоаналитики.
Майкл Герстенхабер, руководитель продукта в Anthropic, пояснил в интервью TechCrunch, что улучшения являются результатом архитектурных изменений и использования новых массивов данных для обучения. При этом, поскольку качественные и не защищенные авторским правом тексты для обучения нейросетей в интернете уже заканчиваются, в Anthropic начали применять для обучения и данные, сгенерированные ИИ. Но полностью раскрыть, на каких именно наборах данных обучали Sonnet 3.5, в Anthropic не готовы — не исключено, чтобы избежать возможных претензий со стороны правообладателей.
Есть у новой модели Anthropic и свои недостатки. Например, пользователи с удивлением обнаружили, что Sonnet 3.5 (в отличие от флагманских моделей OpenAI и Google) так и не научилась заходить на сайты по заданной ссылке и рассказывать, что видит на странице, или получать с них конкретную информацию. Правда, до некоторой степени это компенсируется тем, что новая модель обучена на максимально свежих данных — вплоть до апреля 2024 года, и может отвечать на вопросы по ним. Знания GPT-4o ограничены маем 2023 года, а GPT-4 Turbo — декабрем 2023-го.
Anthropic, по крайней сейчас, не может похвастаться какими-то уникальными преимуществами своей новейшей модели по сравнению с конкурентами. Например, Claude 3.5 Sonnet набирает 92% на тесте написания кода HumanEval против 90,2% у GPT-4o — это вряд ли достаточно весомый аргумент для отказа от продуктов общепризанного лидера, OpenAI, в пользу главного догоняющего. Поэтому в Anthropic смещают фокус в сторону более прагматичных вещей — стоимости и скорости работы.