ADPASS рекомендует материал к прочтению
ООО «Акме»
24.06.2025, 18:04

Сжатие информации: новый шаг в развитии языковых моделей

Учёные из Института AIRI, МФТИ и Лондонского математического института (LIMS) определили пределы сжатия информации для современных языковых моделей.

Исследование показало, что текст длиной в 1,5 тыс. слов или токенов можно эффективно сжать в один вектор — набор чисел, который модель способна использовать для восстановления исходного содержания. Это открытие может значительно повысить эффективность обработки данных в различных областях.

Как работает сжатие текста?

Когда текст поступает в языковую модель, он разбивается на токены — слова или их части, каждому из которых соответствует вектор. Обычно текст из 1,5 тыс. слов преобразуется в 1,5 тыс. векторов, что требует значительных вычислительных ресурсов. Однако учёные продемонстрировали, что всю эту информацию можно уместить в один-единственный вектор, сохраняя возможность восстановления оригинального текста. Например, книга «Хоббит, или Туда и обратно» объёмом около 120 тыс. токенов может быть представлена всего в 100–200 векторах, в зависимости от размера модели.

Сокращение длины входных данных позволяет значительно уменьшить вычислительные затраты. Чем длиннее текст на входе, тем больше ресурсов требуется для его обработки. Замена длинного контекста на один или несколько векторов ускоряет работу моделей и снижает расходы. В текущих методах сжатие достигает коэффициента 10–100, но исследование показывает, что теоретически возможно сжимать текст в 1,5 тыс. раз.

Одна из ключевых проблем сжатия — обеспечение работы языковой модели со сжатым вектором так же, как с исходным текстом. Здесь важную роль играет энтропия, которая измеряет сложность или «неожиданность» текста для модели. Чем более предсказуем текст, тем ниже его энтропия и тем проще его сжать. Например, бессмысленный набор символов с высокой энтропией сжимается гораздо сложнее.

Теоретически вектор может хранить огромный объём информации в битах. Однако языковая модель работает только с теми векторами, которые она «понимает». На практике используется лишь 10–30% потенциальной ёмкости векторов. Эта избыточность помогает исправлять ошибки в кодировании, но также указывает на недостаточное использование доступного пространства данных.

Учёные использовали градиентный спуск — математический подход, позволяющий подобрать параметры вектора для точного восстановления текста. Этот процесс требует нескольких шагов и пока остается дорогостоящим. Цель исследования — показать возможные пределы сжатия. Авторы призывают научное сообщество разработать методы, которые позволят сжимать тексты в один вектор за один шаг.

Сжатие текста может быть полезно в задачах перевода, анализа больших массивов данных, автоматического реферирования и других областях обработки естественного языка. Улучшение методов сжатия текста может привести к созданию более компактных и быстрых языковых моделей, что особенно важно для мобильных устройств и облачных сервисов.

Вам понравится

NedT Agency
03.12.2025
Normaslov
02.12.2025