Залізо для LLM
Прошу поділитися конфігами заліза, на якому локально запускаєте LLM, які LLM вдалося запустити й наскільки комфортно на цьому обладнанні з ними працювати. Звісно, в першу чергу цікавлять «великі» LLM.
Прошу поділитися конфігами заліза, на якому локально запускаєте LLM, які LLM вдалося запустити й наскільки комфортно на цьому обладнанні з ними працювати. Звісно, в першу чергу цікавлять «великі» LLM.
У мене більш-менш працюють моделі 7-13b, використовую для роботи LLM Studio з GGUF файлом, далі у Python скрипті через бібліотеку OpenAI уже працюю з LLM.
Мій конфіг:
Ryzen 5 5600(6 ядер 12 потоків)
32 гігабайти(2 по
Nvidia RTX3050(mobile) на 4 гігабайти VRAM(DDR6 128 bit шина)
SSD 1 TB Samsung EVO 970
Генерація від 5 токенів на секунду, якщо говорити про LLAMA3.1 з квантуванням Q4_K_M. Якщо добавити контексту, скажімо більше 20 000 токенів то генерація падає у
На відносно стареньких відяшках Nvidia з ~6GB VRAM нормально працюють моделі ~7b (з квантизацією).
Якщо розглядати не ноут, а стаціонарний ПК для себе, я б взяв би 2 ігрові карточки Nvidia по 16GB кожна, тоді можна й наприклад щось типу mixtral 8×7b з квантизацією запустити.
(Рівняємось на об’єм VRAM на Kaggle, можете подивитись в актуальних змаганнях, що там на 32GB VRAM запускають)
Ну, або 4×16, якщо орієнтуватись на більшість 70b+ моделей (квантованих!)
Якщо мова про «великі-великі LLM», купувати для них залізо під ПК розробника економічно невигідно, вам треба арендувати GPU в хмарі.
В цілому, ще вигідніше просто використовувати LLM через API-провайдерів, і економічно і в плані економії на розробку, бо ви зможете займатись безпосередньо вашою бізнес-логікою з state-of-the-art моделями, а не писати костилі для подолання дитячих хвороб менш просунутих LLM... що будуть тупо неактуальними через пів-року.
Ще й в перервах між роботою зможете майнити ефір ))
Хоча я не впевнений, що воно окупається сильно вище вартості електроенергії в 2024
Великі це які? 400 млрд. параметрів? Не вигідно купувати залізо саме під них, хіба що у вас і так є вже залізо для інших цілий. Навіть якщо буде залізо щоб запустити її, швидкість генерації все-одно буде так собі. Короче дешевше башляти всяким openai за токени.
У мене 4070 ti super 16gb + 32gb RAM. 7-8b млрд. моделі літають, 20-30b сносно, 70b вішають систему, але думаю це тому що RAM мало, модель тупо не влазить в vram+ram. Замовив 64гб, побачимо.
llama3.1 70b заявляє, що їй треба 40RAM RAM. На 64 GB — норм. запускається й відповідає.
Треба щоб в VRAM повністю влазило, бо RAM — то вже відразу inference speed downgrade на порядок.Так шо я б товаришу топік-стартеру радив би просто багато дешевої VRAM на ігрових картах відносно свіжої архітектури Nvidia
багато дешевої VRAM на ігрових картах відносно свіжої архітектури Nvidia
Тобто
краще
RTX 3090 24gb
ніж 4070 ti super 16gb
?
Ampere ще ж не застаріла?
Теоретично так з точки зору співвідношення ціна-можливості.
Вузьке місце на користувацьких ПК — тупо об’єм VRAM,
Якщо на нових архітектурах якісь оптимізації й дають наприклад ~1.5x приріст швидкості — це вже не так важливо, як і вцілому скільки там ядер / TFLOPS, бо мовна модель, що повністю вмістилась в VRAM буде видавати в будь-якому випадку більш-менш прийнятну для роботи швидкість, трошки не влізла і довелось робити offload в RAM — вже біда, чекаєм не секунди-хвилини, а десятки хвилин.
Вцілому, я думаю, хороша ідея перед покупкою відеокарти — спробувати на ній погоняти цільові моделі, з якими ви хочете працювати, оплативши кілька годин, наприклад, на runpod.io
Саме так і збирають llm конфіги, шукають 3090 на барахолках і включають їх паралельно.
vram сильно важливіше за швидкодію, так як все що не поміститься в vram піде в RAM і cpu, а cpu буде гірше за будь-яку дискретку
У мене mini-itx зборка, тому обмежений фізичними розмірами і потужністю карти, тому 4070 ti super це найкраще що я можу взяти для своєї системи (і то, не всіх вендорів 4070 ti super влазить). А збирати окремий сервер для llm не дуже хочеться. Краще вже за API заплачу якщо треба буде.
А збирати окремий сервер для llm не дуже хочеться.
А якщо окремий кейс для gpu з TB інтерфейсом?
Все-одно, не для того я mini-itx збирав і переплачував 300 баксів ніж якби звичайний збирав, щоб шумну, здорову дуру десь в квартирі чи під столом ставити. Краще клауд орендую якщо треба буде.
Цікаво щодо вартості вашої частки у капіталі обраного вами клауду — скільки вам там будуть робити знижку на послуги кожен рік? Начебто вартість обраного вами клауду буде кожен рік зростати? Бо бачте — ось диво — у біткоіні — ви таки маєте власну частку у капіталі всього того блокчейну. Біткоін ніби і капітал і гроші.
А як оренда потужностей/заліза пов’язана з цим? 2 роки тому на піку майнінгу система з 3090 на vast.ai (умовно) була 0.8$/h, а зараз 0.18$/h. Падає ціна на залізо і падає ціна оренди в цій області.
mini-itx
Як до речі з охолодженням?)
Бо в мене mid tower NZXT H510 і охолодження прям на грані для ryzen 5600x та RTX 2070S.
17 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів