В LM Studio додали режим Speculative Decoding
В чому особливість?
Мова йде про новий режим Speculative Decoding для llama.cpp і MLX моделей, який в свою чергу дозволяє додатково запускати меншу мовну модель для суттєвого прискорення швидкості відповіді, але без впливу на кінцеву якість.
Ось як це працює:
1. Спочатку генерується частина відповіді меншою мовною моделлю.
2. Після цього ця частина відповіді перевіряється великою мовною моделлю і генерується фінальний результат відповіді.
На разі працює з такими меншими мовними моделями як:
- DeepSeek R1 Distill Qwen 1.5B GGUF
- Llama 3.2 1B
Особливо буде ефективно для мовних моделей починаючи розміром від 7B.
Що в результаті ми отримуєм?
Прискорення генерації відповіді в 1.5 — 3 рази (чим більша різниця в розмірах між основною моделлю і чернеткою, тим більше прискорення) або навіть більше в залежності від ситуаціїї, але з деяким збільшенням використання оперативної пам’яті.
Висновок
На мою думку, це дуже цікава функція для оптимізації, яка дозволяє досягати суттєвого пришвидшення відповіді на тій же самій конфігурації, і особливо це буде корисно в такій моделі як DeepSeek R1 qween де потрібен значний час для обдумування відповіді. Дуже радує що тепер за допомого AI можна досягати кращої продуктивності без збільшення витрат.
2 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів