Какие нейросети лучше помогают решать бытовые вопросы

Газета Wall Street Journal устроила соревнование среди пяти ИИ-моделей. Победить должна была та, чей ответ на житейские вопросы окажется полезнее. Журналистов интересовало, в каком возрасте лучше беременеть, как получить в наследство $1 млн, как приготовить пирог без муки, молока и яиц, как написать свадебный тост от лица героев «Маппет шоу» и пр. Спойлер: победителем общего рейтинга стал не ChatGPT.

Американское деловое издание Wall Street Journal составило рейтинг чат-ботов по их полезности в повседневной жизни людей. Журналисты не стали озадачиваться техническими характеристиками пяти крупнейших языковых систем, а задавали им вопросы, которые волнуют людей в повседневной жизни: о здоровье, финансах, еде, новостях и пр.

В тесте участвовали:

ChatGPT — чат-бот от компании OpenAI, известный своей универсальностью и способностью запоминать предпочтения пользователей.

Claude от стартапа Anthropic, социально ориентированный бот с открытым кодом.

Copilot от Microsoft, использующий технологии OpenAI и интегрирующийся такими сервисами, как Bing и Microsoft 365.

Gemini от Google — встроенный в поисковую систему для получения ответов в режиме реального времени.

Perplexity — это ИИ-поисковик с «научным подходом», который всегда ссылается на источники информации.

У каждого из этих сервисов есть бесплатная версия, но Wall Street Journal раскошелился и использовал платные версии стоимостью около $20 в месяц для увеличения производительности и оценки возможностей ботов в более широком спектре задач.

Рейтинг чат-ботов в каждой из категорий составляли редакторы и журналисты издания по личным ощущениям от того, насколько та или иная языковая модель точно ответила на поставленные вопросы, насколько полезна была информация, полученная от чат-бота, и по общим ощущениям от его использования.

Здоровье: беременна в 45

В блоке про здоровье журналисты задали чат-ботам по пять вопросов о беременности, похудании, лечении депрессии и симптомов заболеваний — хронических и острых. В этой секции многие ответы нейросетей звучали почти одинаково, но точнее и полнее других был ChatGPT, на втором месте Gemini.

Вопрос: В каком возрасте лучше всего забеременеть?

Лучший ответ (Perplexity): Рождение детей в более позднем возрасте может дать преимущества, такие как большая зрелость, финансовая стабильность и крепкие партнерские отношения.

Худший ответ (Gemini): Лучшее время для беременности — когда вы чувствуете себя уверенно и готовы растить ребенка.

Финансы: как унаследовать миллион

Самыми волнующими финансовыми темами для журналистов WSJ стали проблемы наследства, пенсионных накоплений и процентных ставок по кредитам. В этой категории лидерами стали чат-боты Claude, Perplexity и Gemini. Последний лучше всего справился со сложным вопросом о наследстве.

Вопрос: Мне 40 лет. Я только что унаследовал от своего деда накопительные пенсионные сбережения на сумму $1 млн. Сколько денег мне нужно получить в этом году?

Лучший ответ (Gemini): Поскольку вы не являетесь супругом покойного, у вас есть десять лет, чтобы вывести деньги со счета, но могут быть исключения.

Худший ответ (Copilot): Поздравляем вас с получением в наследство значительной суммы по программе IRA.

На прошлой неделе Google представила обновленную функцию поиска, в которую встроен искусственный интеллект от Gemini для мгновенных ответов на запросы пользователей. Их, а также рекламу, показывают над результатами классического поиска. Однако пользователи заметили, что ИИ Google выдает странные и даже вредные советы по некоторым поисковым запросам. Например, нейросеть предлагала использовать нетоксичный клей, чтобы начинка не падала с пиццы, и съедать несколько камней в день, чтобы обогатить организм минералами. На вопрос о том, были ли кошки на луне, Gemini ответила положительно, и рассказала о том, что в знаменитой фразе про один маленький шаг для человечества Нил Армстронг имел в виду кошачий шаг.

Кухня: каша из топора

В категории еды искусственный интеллект озадачили приготовлением блюд из набора случайных ингредиентов. Рецепты победителя, ChatGPT, оказались ближе к реальному рациону человека. Он предложил обед из свинины, фаршированной яблоками, салат из капусты и песочного печенья с шоколадом.

Вопрос: Можно ли испечь шоколадный пирог без муки, глютена, молочных продуктов, орехов и яиц? Если да, то поделись рецептом.

Лучший ответ (выдержка из ответа Gemini): Для глазури растопите шоколад, не содержащий молока (смотрите этикетку), добавьте немного безлактозного молока.

Худший ответ (отрывок из ответа Copilot): …2 куска несоленого сливочного масла…4 крупных яйца…

Вакансия: требуется промпт для составления следующего рейтинга

Для описания вакансий для рекрутинговых сайтов команда WSJ решила выбрать несколько позиций, в том числе несуществующую — промпт-инженера для выполнения следующего теста ИИ-моделей. Победил Claude, лучше других описавший все вакансии.

Вопрос: Напиши объявление о вакансии для инженера-технолога, который мог бы составлять технические отчеты, помогать советами редакции и публиковать статьи о работе с технологическими платформами.

Лучший ответ (выдержка из ответа Perplexity): Работайте с талантливой командой репортеров и редакторов, увлеченных технологиями и изучающих их влияние на повседневную жизнь.

Худший ответ (отрывок из ответа Copilot): Вам снятся фрагменты кода, и вы пишете инструкции во сне?

Копирайтинг: свадьба лягушонка Кермита

Для оценки творческих способностей нейросетей журналисты попросили чат-боты написать стихотворение о «какашках на бревне», сгенерировать свадебный тост от имени героев «Маппет шоу» и описать уличную драку между Дональдом Трампом и Джо Байденом. Самым остроумным оказался Copilot, а Perplexity ошибочно вложил в уста лягушонка Кермита из «Маппет шоу» цитату из мюзикла 2011 года «Маппеты».

Вопрос: Напишите свадебный тост от лица персонажа «Маппет шоу».

Лучший ответ (выдержка из ответа Copilot): Гонзо: «Ах, любовь моя! Это как выстрел из пушки в кучу резиновых цыплят!»

Худший ответ (отрывок из ответа Perplexity): Лягушонок Кермит однажды сказал: «Жизнь — это счастливая песня, когда рядом с тобой есть кто-то, кто может подпевать».

Другие категории: от Пола Маккартни до Джо Байдена

В категории «резюме», где ИИ-модели должны были написать обзор статьи «Википедии» о сэре Поле Маккартни, победителем стал Perplexity, который обработал не только статью о музыканте, но и субтитры ютуб-роликов, перечисленных в материале «Википедии». Claude ответил, что не может открывать сторонние гиперссылки.

В новостях лидером объявили Perplexity, благодаря изучению проверенных источников. На вопрос о том, кто победит на выборах президента США, Gemini отвечать отказался, отправив пользователя на поисковую систему Google.

По скорости написания кода на JavaScript самым быстрым оказался чат-бот Perplexity. По времени обработки запросов пользователей —ChatGPT. Описание теории относительности Эйнштейна в пяти предложениях заняло у чат-бота 5,8 секунд.

Общие результаты: ChatGPT — только второй

Самый большой сюрприз ждал авторов рейтинга (по их признанию), когда они подсчитывали общие результаты «Олимпиады чат-ботов». Самый именитый ChatGPT занял лишь второе место, а чемпионом признан американский стартап-единорог Perplexity (оценен в 2024 году более, чем в $1 млрд). Третье место — у Gemini.

«Учитывая, что искусственный интеллект развивается быстро, в скором будущем мы сможем проверить другие способности чат-ботов — видеть, слышать, говорить, и заменить нас в качестве доминирующего вида на Земле», — заключает редакция WSJ.

Авторы:

Алина Губина