Новости

Редакция ADPASS

02.07.2024, 16:22

Нейросети провалили тесты на понимание смысла текстов

Нейросети, построенные по принципу больших языковых моделей (large language models, LLM), способны моментально обрабатывать огромные объемы информации (например, «Войну и мир» Толстого, все тома сразу). Но с пониманием прочитанного у чат-ботов дела обстоят примерно как у самого отстающего ученика. Правильные ответы нейросеть дает примерно в 40-50% случаев. Таковы результаты эксперимента NoCha (Novel Challenge), проведенного группой американских исследователей.

Кто и как проводил эксперимент

Результаты NoCha подробно описаны в препринте статьи «One Thousand and One Pairs: A «novel» challenge for long-context language models», опубликованной на сайте ResearchGate. Авторы – Маржена Карпинска, Кэтрин Таи, Мохит Ийер (все трое – Массачусетский университет в Амхерсте), Кайл Ло (Институт искусственного интеллекта Пола Аллена) и Таня Гойял (Принстонский университет).

В их исследовании был использован набор данных – 1001 пара нарративов из 67 книг. Полный текст книги использовался в качестве контекста. Каждая пара состояла из верного и ложного утверждения, связанного с одним и тем же событием или сущностью. Это было сделано для того, чтобы снизить возможность правильного ответа по ошибке. Для того, чтобы доказать понимание прочитанного, модель должна была дать оба правильных ответа в конкретной паре.

Тестирование проводилось на ИИ-моделях GPT-40, GPT-4 Turbo (OpenAI), Claude-3-Opus, Claude-3.5-Sonnet (Anthropic), Gemini Pro 1.5, Gemini Flash 1.5, Gemma-10M (Google), семействе моделей Command (Cohere), Phi-3-Mini (Microsoft) и LongLLaMA (создана участниками сообщества Hugging Face). Объемы книг, использованных в эксперименте, составляли от 49 тысяч до 336 тысяч токенов. Каждая модель проверялась на книгах, объем которых соответствует ее контекстному окну.

Результаты эксперимента

Лучший результат показала ИИ-модель GPT-40. Она дала правильные ответы в 344 парах из 617. Точность составила 55,75%. Только GPT-40 удалось преодолеть планку 50% (таким образом, ее показатель лишь немногим лучше, чем определение правильного ответа путем подбрасывания монетки).

Чуть-чуть не дотянули до половины правильных ответов Claude-3-Opus и Gemini Pro 1.5. Их показатели равны соответственно 49,41% и 48,05%. У Claude-3.5-Sonnet и GPT-4 Turbo – чуть выше 40%. Gemini Flash 1.5 удалось дать около трети правильных ответов. Самый плохой результат у Gemma-10 M. Из 1001 пары нейросеть правильно поняла 39. Точность – 3,9%.

«Понимание» контекста нейросетями зависело от ряда показателей. Меньше всего точный ответов чат-боты давали в тех случаях, когда нужно было брать в расчет полный текст книги – 41,6%. Если правильный ответ можно было дать на основе обработки данных в длинном абзаце, точность повышалась до 47,6%. Если все можно было понять по одному предложению – до 59,8%.

На ответ влияла тематика книги. Нейросети явно недолюбливают фантастику и предпочитают исторические романы. Если действие книги происходило до начала Второй мировой войны, понимание прочитанного составляло в среднем 56,4%. Если после, но действие происходило в реальном мире – 46,8%. Элементы фантазии понижали точность ответов до 38,8%. При разных показателях точности в целом у разных моделей правило «исторические книги понимаются лучше всего, фэнтэзи и фантастика – хуже всего» действовало для всех нейросетей.

Объяснения, которыми ИИ-модели сопровождали правильные ответы, не всегда были точными и полными. Ни одна нейросеть не дала правильные объяснения во всех случаях. Наименьший процент ошибок – у Claude-3-Opus (16,9%). Чемпионы по ошибкам – GPT-4 Turbo и Gemini Flash 1.5. Они давали неправильные объяснения своих ответов соответственно в 45% и 65,9% случаев.

Пары были составлены таким образом, что подтверждение правильного утверждения логически приводило к отрицанию неправильного. Но нейросети часто давали больше правильных ответов только по одному типу утверждений. Например, Claude-3.5-Sonnet, Gemini Pro 1.5, Gemini Flash 1.5 и GPT-4 Turbo демонстрировали большую точность в определении ложных утверждений по сравнению с истинным. Claude-3-Opus, наоборот, был точнее в определении верных утверждений (82,2% правильных ответов), чем ложных (64,7%). Единственной нейросетью, в которой баланс практически не был нарушен, оказалась GPT-40 (правильно указала 77,75% верных и 75,9% ложных утверждений).

«Хотя такие модели как Gemini Pro 1.5 технически способны обрабатывать контекст большого объема, мы во многих случаях видим, что модели на самом деле «не понимают» контекст», – сказала соавтор исследования Маржена Карпинска в интервью сайту TechCrunch.

В рамках эксперимента не проверялись нейросети Gemini 1.5 Pro и 1.5 Flash с контекстным окном в 2 млн токенов (только с окном 1 млн). Возможно, их результат будет лучше.

Токен и контекстное окно

Токен – последовательность текстовых символов (частей слов, букв, знаков препинания), на которые LLM разбивает текст. По статистике, на одну английскую фразу длиной 75 слов приходится 100 токенов, а на русскую фразу той же длины – 120-150 токенов.

Контекстное окно определяет объем информации, которую использует LLM при обработке промпта (запроса пользователя к нейросети) и выводе сгенерированного ответа. Контекстное окно измеряется в токенах. Различные модели поддерживают контекстные окна различного объема. Между компаниями, занимающимися технологиями ИИ, идет постоянная гонка за увеличение размеров контекстного окна. Так, 6 ноября 2023 года компания OpenAI презентовала улучшенную версию чат-бота GPT-4 Turbo с расширенным объемом контекстного окна в 128 000 токенов, что эквивалентно более чем 300 страниц текста за один запрос. Рекорд вскоре был побит – 21 ноября компания Anthropic представила чат-бот Claude 2.1 с объемом контекстного окна 200 000 токенов. 15 февраля 2024 компания Google сообщила, что в ее продукте – Gemini 1.5 Pro – размер контекстного окна достигает 1 млн токенов. 27 июня Google предоставила пользователям доступ к версии Gemini 1.5 Pro с контекстным окном 2 млн токенов. Такое же контекстное окно у Gemini 1.5 Flash. Это примерно соответствует 2 часам видео, 22 часам аудио или 1 400 000 слов в английском языке, а в русском – 700-880 тысяч слов. В романе Льва Толстого «Война и мир» – 690 731 слово.

Авторы:

Алексей Скворцов

#Исследования #Нейросети #ИИ #ChatGPT

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

01.07.2024

Нужны ли тендеры рекламным агентствам?

Вчера

Московский медиафестиваль пройдет в августе на ВДНХ

Вчера

Продажи на маркетплейсах: риски для предпринимателей

Позавчера

Сумка Барби и очки Тома Круза: что нам продаёт кино

Вам понравится

Редакция ADPASS

Вчера

Почти половина продавцов на маркетплейсах зарабатывают менее 10 тыс. рублей в месяц

Исследования Маркетплейсы

Маркетплейс – не бездонное озеро полное голодных покупателей. Доход 43% начинающих селлеров не дотягивает до 10 тыс. рублей в месяц, а 90% предпринимателей уходят с маркетплейсов после первой неудачи. Работать на маркетплейсах становится все сложнее, время, когда для начала успешных продаж нужно было найти дешевый товар и привезти на склад площадки и ждать прибыль прошло безвозвратно, считают эксперты. По их мнению, наиболее успешной моделью работы на маркетплейсах сейчас стало развитие собственных брендов.

27.06.2024

Ученые уличили соцсети Meta в предвзятости и ошибках при показе политической рекламы

Исследования Соцсети

Показ политической рекламы в соцсетях Facebook* и Instagram* компании Meta** характеризуется ошибками в таргетинге. Рекламу видит не та аудитория, которую выбирали заказчики. Кроме того, алгоритмы соцсетей по-разному обрабатывают рекламу различных политических сил, отдавая предпочтение популистам. К таким выводам пришла группа немецких итальянских исследователей, изучившая более 80 000 образцов политической рекламы в соцсетях. Результаты их работы, первой на данную тему, опубликованы в научном журнале PNAS Nexus.

Редакция ADPASS

17.06.2024

Искусственный интеллект обеспечит 70% мировых доходов от рекламы в 2024 году

Google GroupM ИИ ChatGPT

Накануне международного фестиваля рекламы «Каннские львы» (Cannes Lions), который стартовал сегодня и главной темой которого станет искусственный интеллект, GroupM опубликовала данные о том, что почти 70% доходов от рекламы в 2024 году будет обеспечивать искусственный интеллект. В искусственный интеллект медиаподразделение британского холдинга WPP записало автоматические закупки рекламы с использованием технологий машинного обучения, то есть весь глобальный рынок программатик-рекламы, а также всю поисковую рекламу. По мнению GroupM все поисковые результаты уже в этом году будет на 100% генерировать искусственный интеллект.

Редакция ADPASS

06.06.2024

Nvidia обошла Apple по капитализации, но ей грозят регуляторы и конкуренты

Регулирование ИИ Nvidia Процессоры

В первой тройке самых дорогих компаний в мире произошла перестановка, давно ожидаемая, но от этого не менее значимая: корпорация Nvidia, главный поставщик чипов для обучения и работы систем искусственного интеллекта, по итогам торгов в среду впервые стала стоить дороже, чем Apple. Впереди только Microsoft, которая своим лидерством также обязана в значительной степени внедрению ИИ-технологий в рамках партнерства с OpenAI. Однако положение Nvidia трудно назвать прочным: за компанию уже пообещали всерьез взяться американские регуляторы, а конкуренты — как лидеры рынка чипов, так и стартапы — прилагают массу усилий для создания собственных прорывных продуктов.

Неделя рекламы Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг