Менше токенів — більше розуму. Парадокс? Ні. Просто оптимізація

Пару років тому один відомий ШІ-бізнесмен сказав, що ідеальним штучним інтелектом для нього є «маленька модель мислення з трильйоном токенів контексту, у який можна було б вкласти все життя».
Він досить реалістично намалював картину ШІ, який пам’ятає кожну розмову, кожну книгу, кожен лист, все, що ви коли-небудь бачили або чули. Взагалі-то страшна людина.
Іншими словами, така концепція перетворює контекст зі звичайного тексту в дещо більше! Озброєна ним
Я спеціально не буду казати, про кого мова. Хто слідкує — той згадає, решті реклама цього «злого генія» ні до чого. За пруфом — у коментарі.
Згадалась купа фільмів на цю тему. Наприклад, перший сезон серіалу Upload, де людську свідомість після смерті завантажували у віртуальний світ, створений як хмарний сервіс.
Або стара класика типу Johnny Mnemonic, де чувак мав мозковий імплант із великим обсягом інформації у свідомості.
А ще згадалась моя травнева публікація про дослідників Стенфорда, які взяли інтерв’ю у тисячі людей і на основі їхніх транскриптів створили агентів, які симулювали поведінку респондентів.
Так от, за їхніми даними, поведінка агентів збігалася з реальною на
І це лише за годину спілкування! Уявіть, що буде з вашою особистістю, якщо весь ваш «контекст» потрапить до ШІ.
Так от, коли той, чиє ім’я ми не будемо називати, це казав, контекст чату GPT був лише 32 тисячі токенів — це приблизно
Сьогодні у GPT-5 вже 400 тисяч токенів, тобто приблизно 600 сторінок тексту.
Здавалося б, величезний стрибок! Але ні! Не «все життя» туди влізе. Так — пару відпусток, поїздок на риболовлю, мануал з використання аерогриля, година інтерв’ю — все!
Для того, щоб реально охопити всі розмови, листування, книги, спогади, знадобляться мільярди токенів і пам’ять, яка має зростати разом із людиною.
Саме тут і з’явилася ідея — не збільшувати вікно контексту до нескінченності, а стискати його.
Розв’язати цю проблему здавалося б просто. Адже будь-яка
Подібний принцип використовується і в технології RAG — генерації, підкріпленої пошуком (Retrieval-Augmented Generation), де спеціальні embedding-моделі перетворюють тексти у вектори для ефективного пошуку та впорядкування контенту.
Вони досить точно уособлюють сенси, по них добре шукати та підвантажувати потрібні діалоги. Здавалося — ось воно, рішення: великий абзац перетворили на вектор і отримали стислий числовий опис сенсу, що займає лише кілька кілобайт.
Але проблема embedding-векторів у тому, що вони втрачають структуру тексту. Вони не зберігають послідовність, форматування, порядок речень, цитати, стилі, таблиці чи формули. За їхньою допомогою можна знайти схожий шматок змісту, але не відновити оригінальний текст.
Тому і з’явилась ідея — замість використання для стиснення класичних ембеддингів застосувати зображення сторінки (optical representation).
Саме таким шляхом пішла китайська DeepSeek. Замість того, щоб перетворювати контекст на набори векторів, вони почали перетворювати сторінки тексту на компактні візуальні токени, тобто картинки.
Тож 21 жовтня була опублікована робота «DeepSeek-OCR: Contexts Optical Compression», згідно з якою вони створили систему, що складається з двох компонентів: енкодера (DeepEncoder) і декодера (DeepSeek-3B-MoE).
Енкодер перетворює сторінку тексту (або документ) у компактне візуальне представлення (vision-токени), а декодер відновлює текст або структуру з цих токенів.
Цей підхід називається оптичною компресією контексту (optical context compression), мета якої — зменшення кількості токенів, які треба обробити LLM, без суттєвої втрати змісту. Тобто, іншими словами, те саме стиснення контексту!
Іншими словами, їхня модель бачить зміст як зображення й відновлює його з точністю до 97%. В одній «оптичній сторінці» може поміститися тисяча звичайних рядків, і це практично без втрати сенсу.
Тестування підтвердило
Ще додам пару слів про «стиснення». Мене вже встигли спитати, чому б просто не архівувати текст zip’ом. Тож відповім дуже коротко, зменшення кількості байтів ніяк не еквівалентне зменшенню кількості токенів. У цьому випадку оптична компресія зменшує саме смисловий обсяг даних, тобто кількість токенів, які модель мусить «прочитати».
Іншими словами, це не байтова, а когнітивна економія. ШІ тепер може зберігати гори інформації у стислому вигляді, не втрачаючи контексту. Тобто робити саме те, про що мріяв чувак, ім’я якого я не хочу називати.
А тепер давай трохи пофантазуємо про можливі практичні кейси використання технології стиснення контексту для відомих технологічних гігантів.
От візьмемо Meta (Facebook). Вони могли б використати цю технологію для перетворення всього контенту користувача — пости, коментарі, фото, навіть меми — у візуальні капсули пам’яті. А потім, замість їхнього хаотичного, слабо змістовного пошуку, зробити нарешті щось нормальне, релевантне й зручне.
Той же X (Twitter) міг би нарешті вирішити свою головну проблему з хаосом контекстів. Його стрічка — це мільйони коротких фраз, відірваних від попередніх дискусій. Контекст живе кілька годин, потім зникає. Чи можуть вони відповісти, наприклад, на одне дуже просте питання — «Про що сьогодні сварилися політики?». Навряд. А от озброївшись стисненим контекстом та LLM — так!
Я не кажу вже про Microsoft, Google чи OpenAI — для них це взагалі клондайк. Могли б зберігати коди, листування та документацію у стислому вигляді, розгортати лише потрібні фрагменти й ніколи більше не бачити «out of context window». Іншими словами — менше токенів, менше пам’яті, більше розуму.
Але не все так райдужно. Хочу нагадати, що DeepSeek — це китайська компанія, і її технологія створює візуальні «знімки» текстів. Це породжує питання приватності, бо хтось буквально може «бачити» ваші дані.
Якщо такі системи почнуть збирати мільйони копій у глобальному масштабі — це стане новою формою масового аналізу.
Але, з іншого боку, технологія DeepSeek є open-source. Код уже доступний на GitHub, і це означає, що будь-яка велика IT-компанія — від Google і Microsoft до Meta чи OpenAI — зможе відтворити або навіть вдосконалити цю архітектуру буквально за кілька тижнів.
І ось тут починається найцікавіше. Те, що сьогодні виглядає як китайський прорив, завтра може стати новим стандартом у ШІ-індустрії.
Уявіть, коли кожен великий гравець інтегрує optical compression у свої системи пам’яті: Google — у пошук і Gmail, Meta — у соціальні стрічки, OpenAI — у персональні асистенти.
ШІ отримає не просто довший контекст, а візуальну пам’ять планетарного масштабу.
І якщо DeepSeek показала, як це можливо, то решта світу зараз вирішує, чи готова вона, щоб хтось бачив не тільки тексти, а й саму структуру нашої пам’яті — як ми думаємо, як пишемо, як редагуємо й що забуваємо.
То чи можна сказати, що наш «злий геній», з початку публікації, може нарешті видихнути, бо його мрія про ШІ здійснилася? Бо, насправді ШІ, який пам’ятає все життя, вже не виглядає так фантастично, як пару років тому.
Думаю, що, він, мабуть, задоволено посміхнеться десь в Сан Франциско, бо та його «маленька модель із трильйоном токенів контексту» вже не така й далека.
Але, тим не менш, це поки що лише перший рівень гри. Так, ми навчилися стискати пам’ять, бачити контекст як картинку й утримувати сенс без втрат.
Але до справжнього «життєвого контексту» ще далеко. Людина ж не лише читає, вона змінюється. І щоб зберегти справжнє «все життя», ШІ має не просто пам’ятати, а вміти забувати, переосмислювати й вибачати.
Тож можна сказати — «злий геній» отримав свій перший прототип вічної пам’яті. Але до ідеальної цифрової свідомості ще як мінімум одна епоха ШІ.
На завершення можу сказати, що, на мою думку, стиснення контексту за допомогою оптичної компресії — це водночас революція й попередження.
Так, вона зменшує вартість обчислень у десятки разів, але водночас змушує ставитися із застереженням до злих геніїв, які вже контролюють занадто багато нашого контексту.
Можливо, саме відповідь на питання, хто контролює ваш контекст, і стане головною главою у підручнику про цифрову параною.
5 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів