Технічні статті й дайджести

RSS
← Сtrl 123456...40 Ctrl →

Коментарі

Я у цьом році використовував WeakReference у розробці прозорої зміни креденшелсів у рантаймі для MongoDB драйверу. Тобто якщо у вас зараз нема таких задач, це не говорить, що вони не з’являться у майбутньому.
Потрібна стаття. Але дуже мало про роботу стеку. Зараз багато джунів з профільною освітою не розуміють, як працює стек, яким чином передаються аргументи як хіпових об’єктів, так і простих типів.
Ну може помиляюсь. Було враження що їх реплзиторії на гітхабі якось не дуже часто оновлюються.
ONNX виглядає як колись популярний, нині вже не так часто використовуємий Я не знаю звідки ви це взяли, бо ONNX це лише спроба уніфікувати (і на мою думку вдала) формат представлення моделі, щоб можна було комбінувати різні фрейморки тренування моделей...
ONNX виглядає як колись популярний, нині вже не так часто використовуємий. Для продакшн Inference більш популярний kserve.github.io але цих inference двіжків їх багато, серед них багато які працюють тільки із своїм власним форматом упаковки моделі.
Теж вирішив у своєму проєкті вибрати GGUF файл щоб на етапі розробки не сильно заморочуватись з тонкими налаштуваннями LLM. Але потроху приглядаюсь до Safetensor, щоб краще контролювати свій ШІ.
QLoRA є і для PyTorch (та інших бібліотек також)
Ще один практичний спосіб це QLoRA зробити модель і до навчити щоб вона швидко працювала над вашим датасетом.
Ну запуск на Linux, macOS або Windows за допомогою llama.cpp/LocalAI/Ollama. До речі якщо треба на телефоні Android, то тут треба не GGUF а TensorFlow, якщо на iOS/iPad то тут треба тоді CoreML package format, його і macOS теж підтримує нативно.
Дякую. Ну маємо що маємо
Який практичний сенс конвертації в gguf крім запуску LLM на телефоні? Наскільки швидший inference у порівнянні з PyTorch (при однаковій квантизації)? Як там з підтримкою GPU?
Хороша стаття, але вимагає певного бекграунду зі сторони читача.
Спасибо. Хороший обзор
ооо, спс
Найближче до того що ви хочете я думаю називається QLoRA. LoRA це процесс навчання моделі шляхом створення додаткового рівня в нейронній мережі, плюс того що це реально зробити на персональному компʼютері. Q це квантизація.