Умные шоссе, кожа из кофейной гущи TomTex, нейросеть для знакомств Rizz, ИИ-сиденье для унитаза TrueLoo, электрокартинг-симулятор Segway. Эти и многие другие полезные штуки — в ежегодном рейтинге лучших мировых изобретений для человека от журнала Time.
Какие нейросети лучше помогают решать бытовые вопросы
Газета Wall Street Journal устроила соревнование среди пяти ИИ-моделей. Победить должна была та, чей ответ на житейские вопросы окажется полезнее. Журналистов интересовало, в каком возрасте лучше беременеть, как получить в наследство $1 млн, как приготовить пирог без муки, молока и яиц, как написать свадебный тост от лица героев «Маппет шоу» и пр. Спойлер: победителем общего рейтинга стал не ChatGPT.
Американское деловое издание Wall Street Journal составило рейтинг чат-ботов по их полезности в повседневной жизни людей. Журналисты не стали озадачиваться техническими характеристиками пяти крупнейших языковых систем, а задавали им вопросы, которые волнуют людей в повседневной жизни: о здоровье, финансах, еде, новостях и пр.
В тесте участвовали:
ChatGPT — чат-бот от компании OpenAI, известный своей универсальностью и способностью запоминать предпочтения пользователей.
Claude от стартапа Anthropic, социально ориентированный бот с открытым кодом.
Copilot от Microsoft, использующий технологии OpenAI и интегрирующийся такими сервисами, как Bing и Microsoft 365.
Gemini от Google — встроенный в поисковую систему для получения ответов в режиме реального времени.
Perplexity — это ИИ-поисковик с «научным подходом», который всегда ссылается на источники информации.
У каждого из этих сервисов есть бесплатная версия, но Wall Street Journal раскошелился и использовал платные версии стоимостью около $20 в месяц для увеличения производительности и оценки возможностей ботов в более широком спектре задач.
Рейтинг чат-ботов в каждой из категорий составляли редакторы и журналисты издания по личным ощущениям от того, насколько та или иная языковая модель точно ответила на поставленные вопросы, насколько полезна была информация, полученная от чат-бота, и по общим ощущениям от его использования.
Здоровье: беременна в 45
В блоке про здоровье журналисты задали чат-ботам по пять вопросов о беременности, похудании, лечении депрессии и симптомов заболеваний — хронических и острых. В этой секции многие ответы нейросетей звучали почти одинаково, но точнее и полнее других был ChatGPT, на втором месте Gemini.
Вопрос: В каком возрасте лучше всего забеременеть?
Лучший ответ (Perplexity): Рождение детей в более позднем возрасте может дать преимущества, такие как большая зрелость, финансовая стабильность и крепкие партнерские отношения.
Худший ответ (Gemini): Лучшее время для беременности — когда вы чувствуете себя уверенно и готовы растить ребенка.
Финансы: как унаследовать миллион
Самыми волнующими финансовыми темами для журналистов WSJ стали проблемы наследства, пенсионных накоплений и процентных ставок по кредитам. В этой категории лидерами стали чат-боты Claude, Perplexity и Gemini. Последний лучше всего справился со сложным вопросом о наследстве.
Вопрос: Мне 40 лет. Я только что унаследовал от своего деда накопительные пенсионные сбережения на сумму $1 млн. Сколько денег мне нужно получить в этом году?
Лучший ответ (Gemini): Поскольку вы не являетесь супругом покойного, у вас есть десять лет, чтобы вывести деньги со счета, но могут быть исключения.
Худший ответ (Copilot): Поздравляем вас с получением в наследство значительной суммы по программе IRA.
На прошлой неделе Google представила обновленную функцию поиска, в которую встроен искусственный интеллект от Gemini для мгновенных ответов на запросы пользователей. Их, а также рекламу, показывают над результатами классического поиска. Однако пользователи заметили, что ИИ Google выдает странные и даже вредные советы по некоторым поисковым запросам. Например, нейросеть предлагала использовать нетоксичный клей, чтобы начинка не падала с пиццы, и съедать несколько камней в день, чтобы обогатить организм минералами. На вопрос о том, были ли кошки на луне, Gemini ответила положительно, и рассказала о том, что в знаменитой фразе про один маленький шаг для человечества Нил Армстронг имел в виду кошачий шаг.
Кухня: каша из топора
В категории еды искусственный интеллект озадачили приготовлением блюд из набора случайных ингредиентов. Рецепты победителя, ChatGPT, оказались ближе к реальному рациону человека. Он предложил обед из свинины, фаршированной яблоками, салат из капусты и песочного печенья с шоколадом.
Вопрос: Можно ли испечь шоколадный пирог без муки, глютена, молочных продуктов, орехов и яиц? Если да, то поделись рецептом.
Лучший ответ (выдержка из ответа Gemini): Для глазури растопите шоколад, не содержащий молока (смотрите этикетку), добавьте немного безлактозного молока.
Худший ответ (отрывок из ответа Copilot): …2 куска несоленого сливочного масла…4 крупных яйца…
Вакансия: требуется промпт для составления следующего рейтинга
Для описания вакансий для рекрутинговых сайтов команда WSJ решила выбрать несколько позиций, в том числе несуществующую — промпт-инженера для выполнения следующего теста ИИ-моделей. Победил Claude, лучше других описавший все вакансии.
Вопрос: Напиши объявление о вакансии для инженера-технолога, который мог бы составлять технические отчеты, помогать советами редакции и публиковать статьи о работе с технологическими платформами.
Лучший ответ (выдержка из ответа Perplexity): Работайте с талантливой командой репортеров и редакторов, увлеченных технологиями и изучающих их влияние на повседневную жизнь.
Худший ответ (отрывок из ответа Copilot): Вам снятся фрагменты кода, и вы пишете инструкции во сне?
Копирайтинг: свадьба лягушонка Кермита
Для оценки творческих способностей нейросетей журналисты попросили чат-боты написать стихотворение о «какашках на бревне», сгенерировать свадебный тост от имени героев «Маппет шоу» и описать уличную драку между Дональдом Трампом и Джо Байденом. Самым остроумным оказался Copilot, а Perplexity ошибочно вложил в уста лягушонка Кермита из «Маппет шоу» цитату из мюзикла 2011 года «Маппеты».
Вопрос: Напишите свадебный тост от лица персонажа «Маппет шоу».
Лучший ответ (выдержка из ответа Copilot): Гонзо: «Ах, любовь моя! Это как выстрел из пушки в кучу резиновых цыплят!»
Худший ответ (отрывок из ответа Perplexity): Лягушонок Кермит однажды сказал: «Жизнь — это счастливая песня, когда рядом с тобой есть кто-то, кто может подпевать».
Другие категории: от Пола Маккартни до Джо Байдена
В категории «резюме», где ИИ-модели должны были написать обзор статьи «Википедии» о сэре Поле Маккартни, победителем стал Perplexity, который обработал не только статью о музыканте, но и субтитры ютуб-роликов, перечисленных в материале «Википедии». Claude ответил, что не может открывать сторонние гиперссылки.
В новостях лидером объявили Perplexity, благодаря изучению проверенных источников. На вопрос о том, кто победит на выборах президента США, Gemini отвечать отказался, отправив пользователя на поисковую систему Google.
По скорости написания кода на JavaScript самым быстрым оказался чат-бот Perplexity. По времени обработки запросов пользователей —ChatGPT. Описание теории относительности Эйнштейна в пяти предложениях заняло у чат-бота 5,8 секунд.
Общие результаты: ChatGPT — только второй
Самый большой сюрприз ждал авторов рейтинга (по их признанию), когда они подсчитывали общие результаты «Олимпиады чат-ботов». Самый именитый ChatGPT занял лишь второе место, а чемпионом признан американский стартап-единорог Perplexity (оценен в 2024 году более, чем в $1 млрд). Третье место — у Gemini.
«Учитывая, что искусственный интеллект развивается быстро, в скором будущем мы сможем проверить другие способности чат-ботов — видеть, слышать, говорить, и заменить нас в качестве доминирующего вида на Земле», — заключает редакция WSJ.
Лучшее в блогах
Вам понравится
Пользователи заждались обновлений ведущих разработчиков искусственного интеллекта — OpenAI (ChatGPT) и конкурирующей с ней Google. Последнюю номерную версию большой языковой модели GPT-4 OpenAI выпустила в марте 2023 года — полтора года назад. Google представила нейросеть Gemini 1.0 в декабре 2023-го и также пока не выпустила версию 2.0. Когда станут доступны новинки, и оправдают ли они ожидания разработчиков и пользователей, выяснял ADPASS.
В Польше заработало нечеловеческое радио: журналистов сократили, а пишет текст для эфира и ведет его генеративный искусственный интеллект. ИИ используют для автоматического создания подкастов о местных новостях там, где традиционные медиа не выживают, и для безопасности там, где трудно выжить уже самим журналистам. Как искусственный интеллект помогает СМИ экономить (в том числе, на персонале), заполнять информационный вакуум при отсутствии даже минимальных ресурсов и защищаться от политического давления, разбирался ADPASS.
44% россиян одобряет использование технологий искусственного интеллекта (ИИ) в умных колонках и чат-ботах. Лишь 13% россиян готовы доверить ИИ сферу государственного управления. Отношению россиян к использованию ИИ в разных сферах жизни посвящен обзор Всероссийского центра изучения общественного мнения (ВЦИОМ). Для сравнения приводим результаты похожих опросов в США.
ПОДПИСКА
ВАШ ЗАПРОС ДОСТАВЛЕН
О блогах ADPASS: правила, рекомендации, ответы на вопросы