Місцевий посібник з апаратного забезпечення LLM 2025: Ціни та технічні характеристики
Ландшафт для локального розгортання LLM в серпні 2025 року пропонує безліч апаратних шляхів, від споживчих графічних процесорів до рішень для корпоративних центрів обробки даних, з різкими коливаннями цін і компромісами в продуктивності, які критично впливають на рішення про розгортання. Найважливіший висновок полягає в тому, що конфігурації з двома RTX 5090 тепер відповідають продуктивності H100 для моделей 70B при 25% вартості, що докорінно змінює економіку локального розгортання.
Споживче обладнання досягло порогу продуктивності, за яким можливе серйозне виробниче розгортання. 32 ГБ VRAM RTX 5090 дозволяє запускати на одному графічному процесорі моделі з квантуванням 70B, тоді як Apple M3 Ultra з 512 ГБ уніфікованої пам'яті може обробляти навіть моделі з 671B параметрами з квантуванням. Корпоративні варіанти, такі як B200, пропонують чудову продуктивність, але стикаються з серйозними обмеженнями поставок і преміальними цінами, які можуть не виправдати інвестиції для багатьох випадків використання.
Специфікації Apple Silicon змінюють доступність великих моделей.
Ціни на Mac Studio M3 Ultra та конфігурації пам'яті
Вартість Mac Studio M3 Ultra починається від 3 999 доларів за базову конфігурацію з 28-ядерним процесором і 96 ГБ оперативної пам'яті. Критично важлива опція об'ємом 192 ГБ безпосередньо недоступна - користувачі повинні вибрати конфігурацію з 256 ГБ за додаткові 1 500 доларів, що в сумі становить 5 499 доларів. Максимальна конфігурація з 512 ГБ додає ще 2400 доларів до вартості 256 ГБ, в результаті чого ціна за максимальну конфігурацію з 1 ТБ пам'яті становить 9499 доларів. Повністю обладнана система з 512 ГБ оперативної пам'яті та 16 ТБ сховищем досягає 14 099 доларів.
Пропускна здатність пам'яті M3 Ultra зі швидкістю 819 ГБ/с має вирішальне значення для виведення LLM, перевершуючи традиційні архітектури CPU+GPU, де дані повинні передаватися через шини PCIe. 32-ядерний Neural Engine виконує 38 трильйонів операцій за секунду, а підтримка Thunderbolt 5 забезпечує передачу даних зі швидкістю 120 ГБ/с для потенційних кластерних конфігурацій.
Кластеризація Mac Mini M4 забезпечує бюджетну масштабованість.
Вартість Mac Mini M4 починається від 599 доларів за базову 10-ядерну конфігурацію з 16 ГБ пам'яті (з можливістю оновлення до 32 ГБ). Варіант M4 Pro вартістю 1399 доларів має 24 ГБ оперативної пам'яті з можливістю розширення до 64 ГБ і пропускною здатністю 273 ГБ/с, що значно покращує продуктивність LLM. Тестування в реальних умовах показало, що один M4 Pro з 64 ГБ оперативної пам'яті працює з Qwen 2.5 32B зі швидкістю 11-12 токенів на секунду, що є достатнім для багатьох виробничих випадків використання.
Exo Labs продемонструвала ефективну кластеризацію з 4 Mac Mini M4 (599 доларів за кожен) плюс MacBook Pro M4 Max, отримавши 496 ГБ загальної об'єднаної пам'яті за ціною менше 5 000 доларів. Ця установка працює з Qwen 2.5 Coder-32B зі швидкістю 18 токенів на секунду та Nemotron-70B зі швидкістю вісім токенів на секунду. Однак окремі висококласні студії Mac зазвичай перевершують кластери Mac Mini завдяки вищій пропускній здатності пам'яті та зменшенню витрат на обмін даними між пристроями.
Ціни на графічні процесори NVIDIA відображають серйозні викривлення на ринку
RTX 5090 має величезні премії, незважаючи на те, що MSRP $1 999
RTX 5090 офіційно коштує $1 999 за версію Founders Edition, але вуличні ціни варіюються від $2 500 до $3 800 за моделі AIB. ASUS ROG Astral продається за $2,799.99, коли вона доступна, а кастомні моделі зазвичай перевищують $3,000. 32 ГБ GDDR7 VRAM з пропускною здатністю 1 792 ГБ/с дозволяє запускати моделі з 70B параметрами та квантуванням на одному графічному процесорі.
Тести продуктивності показують, що RTX 5090 досягає 5841 токен/сек на Qwen2.5-Coder-7B (розмір партії 8), що в 2,6 рази перевищує продуктивність A100 на 80 ГБ. Для моделей 70B конфігурації з двома RTX 5090 досягають швидкості обробки 27 токенів/сек, що відповідає продуктивності H100 за меншу вартість. TDP 575 Вт вимагає блоків живлення потужністю понад 1200 Вт і надійних систем охолодження.
Ціни на корпоративні графічні процесори залишаються космічними.
Графічний процесор H200 коштує $40,000-$55,000 за одиницю через партнерів, а хмарні тарифи становлять $3,72-$10,60 за годину. Його 141 ГБ пам'яті HBM3e і пропускна здатність 4,8 ТБ/с - це на 76% більше пам'яті і на 43% більше пропускної здатності, ніж у H100. Новіша модель B200 коштує $30,000-$35,000, незважаючи на те, що пропонує 192 ГБ пам'яті HBM3e і пропускну здатність 8 ТБ/с, хоча її доступність залишається суттєво обмеженою, а терміни виконання замовлення становлять 3-6 місяців.
B100, який позиціонується як заміна H100 з пам'яттю 192 ГБ і TDP 700 Вт, коштує приблизно $30 000-$35 000. Повідомляється, що все виробництво Blackwell до 2025 року розпродано, і TSMC збільшила замовлення з 40 000 до 60 000 одиниць, щоб задовольнити попит.
Системи DGX досягають ціни в півмільйона доларів
Система DGX H200 з 8 графічними процесорами та 1 128 ГБ загальної пам'яті коштує 400 000-500 000 доларів, тоді як новіша система DGX B200 коштує 515 410 доларів від Broadberry. Система B200 забезпечує 72 PFLOPS FP8 навчання і 144 PFLOPS FP4 виведення, що в 3 рази перевищує продуктивність навчання і в 15 разів - продуктивність виведення порівняно з DGX H100.
Суперчіп GB200, що поєднує два графічні процесори B200 з процесором Grace, коштує $60 000-$70 000 за одиницю. Стоєчні системи, такі як GB200 NVL72 з 72 графічними процесорами, досягають 3 мільйонів доларів, орієнтовані на гіпермасштабне розгортання.
Вимоги до пам'яті диктують стратегії вибору обладнання.
Некількісні вимоги до пам'яті моделі перевищують вимоги більшості одиночних систем.
Запуск моделей з параметрами 70B з точністю FP16 вимагає приблизно 148 ГБ VRAM плюс 20% накладних витрат на активацію, що в сумі становить 178 ГБ. У контексті 128K кеш KV додає ще 39 ГБ, що виводить вимоги за межі 200 ГБ, що вимагає або декількох графічних процесорів (2× H100 80 ГБ або 4× A100 40 ГБ), або агресивного квантування.
Моделі з параметрами 405B вимагають 810 ГБ для базової моделі у FP16, а загальні вимоги наближаються до 1 ТБ, включаючи накладні витрати та кеш-пам'ять KV. Ці моделі вимагають багатовузлового розгортання або квантування FP8 на системах 8×H100. Моделі 671B Nemotron і DeepSeek-R1 потребують 1,3-1,4 ТБ у FP16, що вимагає інфраструктури масштабу дата-центру або агресивного квантування до 700 ГБ у FP8.
Кількісна оцінка трансформує економіку розгортання.
Квантування GGUF зменшує пам'ять у 4 рази за допомогою Q4_K_M, зберігаючи при цьому прийнятну якість для більшості випадків використання. Q5_K_M забезпечує зменшення в 3.2 рази з мінімальною деградацією. Цей формат чудово працює на процесорах і кремнії Apple, що робить його ідеальним для периферійних розгортань.
AWQ (квантування ваги з урахуванням активації ) забезпечує 4-кратну економію пам'яті зі збереженням кращої якості, ніж GPTQ, і часто працює вдвічі швидше на графічних процесорах. Це особливо ефективно для моделей, що налаштовуються на інструкції, де підтримка якості відгуку є критично важливою.
Квантування FP8 на апаратному забезпеченні H100/H200/B200 забезпечує зменшення пам'яті вдвічі з мінімальною втратою якості, оскільки багато нових моделей навчаються на FP8, що дозволяє запускати моделі 405B на одному вузлі з 8 графічними процесорами зі збереженням майже повної точності.
Архітектури розгортання суттєво відрізняються залежно від сценарію використання.
Служба підтримки клієнтів надає перевагу часу відповіді, а не розміру моделі.
Для додатків обслуговування клієнтів, що вимагають відгуку менше 2 секунд, Llama 3.1 8B у FP16 на одному графічному процесорі A10G або L4 (16 ГБ VRAM) забезпечує оптимальне співвідношення ціни та продуктивності. Для більш якісних відповідей Llama 3.1 70B з 4-бітним квантуванням AWQ на двох графічних процесорах A100 по 80 ГБ забезпечує продуктивність корпоративного рівня при 35 ГБ на один графічний процесор.
vLLM з тензорним паралелізмом і безперервною пакетною обробкою максимізує пропускну здатність, а попереднє прогрівання і агресивне керування кешем KV мінімізує затримку першого читання. Більшість успішних розгортань реалізують гібридну маршрутизацію, надсилаючи 70% запитів на менші моделі та резервуючи більші моделі для складних запитів.
Генерація коду вимагає великих контекстних вікон.
Робочі навантаження з генерації коду вимагають довжини контексту 32K-128K, що значно підвищує вимоги до пам'яті. Llama 3.1 70B у FP16 на 4× A100 графічних процесорах по 80 ГБ обробляє повний контекст, при цьому 40 ГБ+ зарезервовано для кешу KV. Моделі DeepSeek-Coder, навчені спеціально для задач кодування, часто перевершують більші загальні моделі.
Одновузловий тензорний паралелізм зі швидкою пам'яттю NVMe для завантаження моделей виявляється найефективнішим. Багато команд повідомляють про успішне використання систем Mac Studio M3 Ultra для розробки, використовуючи уніфіковану пам'ять об'ємом 512 ГБ для експериментів з більшими моделями перед розгортанням у виробництво.
Дослідницькі програми вимагають максимальної точності.
Дослідницькі розгортання надають перевагу точності над вартістю, зазвичай використовуючи Llama 3.1 405B в FP8 на системах 8× H100 або DeepSeek-R1 671B для складних завдань логічного аналізу. Ці конфігурації уникають агресивного квантування, щоб зберегти відтворюваність і максимальну здатність моделі.
Вимоги до інфраструктури включають багатовузлові конфігурації з інтерфейсами InfiniBand та охолодження корпоративного рівня. Багато дослідницьких установ вважають системи Apple M3 Ultra цінними для експериментів, оскільки об'єднана пам'ять 512 ГБ дозволяє завантажувати моделі, для яких в інших системах знадобилося б кілька графічних процесорів.
Створення контенту балансує між творчістю та послідовністю.
Для створення контенту зазвичай використовується Llama 3.1 70B у FP16 для збалансованої креативності та послідовності, або Mixtral 8x7B з 4-бітним квантуванням GPTQ для економічно ефективної пакетної обробки. Високотемпературна дискретизація та різноманітна оперативна обробка заохочують творчість, зберігаючи при цьому узгодженість голосу бренду.
Планування потужності на випадок пікових навантажень є дуже важливим, оскільки творчі робочі процеси часто демонструють екстремальні сплески використання. Багато розгортань реалізують архітектури на основі черг, які можуть масштабуватися від 1 до 10+ графічних процесорів залежно від попиту.
Загальна вартість володіння виявляє несподівані точки беззбитковості.
Витрати на придбання обладнання дуже різняться залежно від класу.
Споживчі графічні процесори коштують від 1600-2000 доларів за RTX 4090 до 2000-3800 доларів за RTX 5090, хоча їхня доступність залишається проблематичною. Графічні процесори корпоративного класу коштують від $25 000 до $30 000 за H100 і від $30 000 до $40 000 за B200. Системи Apple M3 Ultra зі значущими конфігураціями пам'яті коштують від $7 000 до $10 000.
Хмарні екземпляри пропонують негайну доступність за ціною $0,89 за годину для RTX 5090, $1,90-$3,50 за годину для H100 і $4,00-$6,00 за годину для систем B200. Різке зниження ціни на H100 з $8+ за годину на початку 2025 року відображає покращення доступності та конкуренції.
Операційні витрати виходять за рамки апаратного забезпечення.
Енергоспоживання коливається від 215 Вт для систем Apple M3 Ultra до 1000 Вт для графічних процесорів B200, при цьому витрати на електроенергію становлять $0,10-$0,30/кВт-год. Охолодження додає 15-30% накладних витрат, а мережева інфраструктура для встановлення декількох графічних процесорів вимагає підключення зі швидкістю 10 Гбіт/с+. Витрати на персонал складають в середньому $135 000 на рік для інженерів MLOps, а витрати на дотримання нормативних вимог додають 5-15% для регульованих галузей.
Точка беззбитковості для самостійного хостингу в порівнянні з використанням API зазвичай досягається на рівні 2 мільйонів токенів на день, при цьому для економічної ефективності важливим є належне використання апаратного забезпечення на рівні вище 70%. Одна фінтех-компанія скоротила витрати на 83%, перейшовши з $47 тис. на місяць на GPT-4o Mini до $8 тис. на місяць за допомогою гібридного підходу Claude Haiku плюс самохостинг моделі 7B.
Тести продуктивності показують сильні сторони платформи.
Останні швидкості виведення надають перевагу новим архітектурам.
RTX 5090 досягає 5 841 токенів на секунду на Qwen2.5-Coder-7B, демонструючи 72% покращення порівняно з RTX 4090 у завданнях NLP. Менші моделі, такі як Qwen2-0.5B, досягають вражаючих 65 000+ токенів/сек, забезпечуючи величезну пропускну здатність для простих завдань.
Системи B200 забезпечують 15-кратне покращення виведення порівняно з H100, тоді як H200 забезпечує 2-кратне прискорення завдяки збільшеній пропускній здатності пам'яті. Apple M3 Ultra досягає 76 токенів/сек на LLaMA-3 8B Q4_K_M, а майбутній M4 Max, за прогнозами, досягне 96-100 токенів/сек.
Вибір фреймворку суттєво впливає на продуктивність.
vLLM 0.6.0 покращує пропускну здатність у 2,7 рази та зменшує затримки у 5 разів порівняно з попередніми версіями, досягаючи 2300-2500 токенів на секунду для Llama 8B на H100. Функція PagedAttention зменшує фрагментацію пам'яті на 60-80%, що має вирішальне значення для виробничих розгортань.
Llama.cpp забезпечує 93,6-100,2% продуктивності vLLM для одиночних запитів, пропонуючи при цьому чудову оптимізацію процесора та Apple Silicon. Широкі можливості квантування та менші витрати пам'яті роблять його ідеальним для периферійних розгортань.
Показники енергоефективності значно покращуються.
Сучасні системи H100 з vLLM досягають 0,39 джоулів на токен для Llama-3.3-70B FP8, що в 120 разів перевищує ефективність, яку часто цитують у ChatGPT. RTX 5090 споживає на 28% більше енергії, ніж RTX 4090, при цьому забезпечує на 72% кращу продуктивність, що значно підвищує загальну ефективність.
Квантування FP8 та FP4 зменшує енергоспоживання на 30-50%, зберігаючи прийнятну якість. Оптимізація програмного забезпечення за допомогою vLLM і TensorRT-LLM забезпечує додатковий приріст ефективності, причому деякі розгортання повідомляють про 10-кратне покращення порівняно з базовими показниками 2023 року.
Багатовузлове розгортання дозволяє виконувати граничні моделі.
Вимоги до апаратного забезпечення зростають експоненціально зі збільшенням розміру моделі.
Одиночні графічні процесори ефективно працюють з моделями з 80 ГБ VRAM. Одновузлові багатопроцесорні конфігурації з 2-8 графічними процесорами, підключеними через NVLink, добре працюють до 640 ГБ загальної пам'яті VRAM (обмеження 8×H100). Понад цей поріг стає необхідним багатовузлове розгортання, що призводить до значної складності та накладних витрат на зв'язок.
Для моделей 70B 4 Mac Minis M4 можуть забезпечити достатній обсяг пам'яті завдяки кластеризації, хоча один Mac Studio M3 Ultra зазвичай забезпечує кращу продуктивність. Моделі 405B завжди потребують розподіленого розгортання у FP16, тоді як моделі 671B вимагають інфраструктури масштабу центру обробки даних, якщо не проводити агресивне квантування.
Стратегії паралелізму оптимізують різні сценарії.
Тензорний паралелізм розподіляє кожен рівень між декількома графічними процесорами, забезпечуючи низьку затримку завдяки паралельним обчисленням. Цей підхід ідеально підходить для окремих вузлів, де високошвидкісні з'єднання, такі як NVLink, мінімізують накладні витрати на зв'язок. Налаштуйте tensor_parallel_size рівним кількості графічних процесорів на вузол для оптимальної продуктивності.
Паралелізм конвеєра розподіляє суміжні шари між вузлами, зменшуючи вимоги до міжвузлового зв'язку. Хоча це призводить до появи бульбашок у конвеєрі, які знижують ефективність авторегресійного виведення, це дозволяє масштабувати повільніші міжвузлові з'єднання і підтримує нерівномірні конфігурації пам'яті графічного процесора.
Гібридний підхід, що застосовується в vLLM, використовує тензорний паралелізм всередині вузлів і конвеєрний паралелізм між вузлами, максимізуючи як локальну пропускну здатність, так і міжвузлову ефективність.
Практичні рекомендації для негайного розгортання
Організаціям, які обробляють менше 1 мільйона токенів щодня, я рекомендую залишатися з постачальниками API, відстежуючи зростання використання. Складність і капіталомісткість самостійного хостингу не виправдовують скромну економію в таких масштабах.
Командам, які обробляють 1-10 мільйонів токенів щодня, варто розглянути можливість використання одного RTX 4090 або RTX 5090 з квантованими моделями. Це оптимальний варіант, що балансує між капітальними інвестиціями та операційною економією, зазвичай досягаючи рентабельності інвестицій протягом 6-12 місяців.
Підприємства, які щодня обробляють понад 10 мільйонів токенів, отримують вигоду від використання двох RTX 5090 або хмарних екземплярів H100 із зарезервованими потужностями. Впроваджуйте гібридні стратегії маршрутизації, які надсилають прості запити на менші моделі, резервуючи більші моделі для складних запитів, знижуючи витрати на 10-30%.
Організаціям, що мають вимоги до дотримання нормативних вимог, слід надавати перевагу локальному розгортанню H100/H200, незважаючи на премію, оскільки можливості контролю та аудиту виправдовують додаткові витрати на інфраструктуру та процеси, пов'язані з дотриманням нормативних вимог, у розмірі 15 %.
Дослідницькі команди та розробники отримують найбільшу користь від систем Apple M3 Ultra з 512 ГБ оперативної пам'яті, що дозволяє експериментувати з моделями, які в іншому випадку вимагали б дорогих установок з декількома графічними процесорами. Хоча швидкість виведення відстає від рішень NVIDIA, уніфікована архітектура пам'яті забезпечує унікальні переваги для розробки та тестування моделей.
Посилання
Документація основної моделі
DeepSeek AI. "Технічний звіт DeepSeek-V3." arXiv препринт, грудень 2024. https://arxiv.org/html/2412.19437v1.
Мета. "Стадо лам 4: Початок нової ери природних мультимодальних інновацій у сфері ШІ". Блог Meta AI, квітень 2025 року. https://ai.meta.com/blog/llama-4-multimodal-intelligence/.
Google Developers. "Представляємо Gemma 3: Посібник для розробників". Блог розробників Google, 2025. https://developers.googleblog.com/en/introducing-gemma3/.
Alibaba Cloud. "Qwen3: Думай глибше, дій швидше". Qwen (блог). Доступно 13 серпня 2025 року. https://qwenlm.github.io/blog/qwen3/.
Апаратне забезпечення та інфраструктура
NVIDIA. "DGX H200". Центр обробки даних NVIDIA. Доступно 13 серпня 2025 року. https://www.nvidia.com/en-us/data-center/dgx-h200/.
Розробник NVIDIA. "Платформа NVIDIA Blackwell встановлює нові рекорди LLM виводу в MLPerf Inference v4.1". Технічний блог NVIDIA, 2025. https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/.
Креативні стратегії. "Apple Mac Studio з оглядом M3 Ultra: Ідеальна робоча станція для розробників штучного інтелекту". Creative Strategies, 2025. https://creativestrategies.com/mac-studio-m3-ultra-ai-workstation-review/.
Сервісні рамки
vLLM. "vLLM V1: Основне оновлення базової архітектури vLLM." Блог vLLM, 27 січня 2025 року. https://blog.vllm.ai/2025/01/27/v1-alpha-release.html.
NVIDIA. "TensorRT-LLM." Репозиторій GitHub. GitHub, 2025. https://github.com/NVIDIA/TensorRT-LLM.
Hugging Face. "Впровадження підтримки мульти-бекендів (TRT-LLM, vLLM) для виведення генерації тексту". Блог Hugging Face, 2025. https://huggingface.co/blog/tgi-multi-backend.
Аналіз ринку та тематичні дослідження
Menlo Ventures. "Оновлення ринку LLM у середині року 2025: Ландшафт фундаментальної моделі + економіка". Menlo Ventures, 2025. https://menlovc.com/perspective/2025-mid-year-llm-market-update/.
ZenML. "LLMOps у виробництві: 457 прикладів того, що насправді працює". Блог ZenML, 2025. https://www.zenml.io/blog/llmops-in-production-457-case-studies-of-what-actually-works.
Посібники з впровадження
Red Hat. "Міркування, готові до розгортання, з кількісними моделями DeepSeek-R1". Red Hat Developer, березень 2025. https://developers.redhat.com/articles/2025/03/03/deployment-ready-reasoning-quantized-deepseek-r1-models.
Єрмагамбет, Расул. "Моніторинг багатовузлових кластерів для підготовки магістрів за допомогою Prometheus та Grafana". Medium, 2025. https://medium.com/@rasul.yermagambet/monitoring-multi-node-clusters-for-llm-training-with-prometheus-and-grafana-bea82da7f1db.
Новий стек. "Вступ до vLLM: Високопродуктивний механізм обслуговування LLM". The New Stack, 2025. https://thenewstack.io/introduction-to-vllm-a-high-performance-llm-serving-engine/.