Чому NVIDIA GB300 NVL72 (Blackwell Ultra) має значення 🤔.

NVIDIA об'єднала 72 графічні процесори Blackwell Ultra та 36 центральних процесорів Grace у стійку з рідинним охолодженням, яка споживає близько 120 кВт та забезпечує 1,1 ексафлопс обчислень FP4 за допомогою GB300 NVL72 - в 1,5 рази більше продуктивності штучного інтелекту, ніж оригінальна модель GB200 NVL72 (NVIDIA, 2025). Ця єдина шафа змінює всі припущення щодо живлення, охолодження та прокладання кабелів у сучасних центрах обробки даних. Ось що дізнаються інженери з розгортання, які готують майданчики до перших серійних поставок GB300 NVL72.

1. Розбирання стійки

КомпонентКількістьКлючові характеристикиПотребляемая потужністьДжерелоДжерело обчислювальних лотківGrace-Blackwell18 ~ 6,5 кВт кожен117 кВт всьогоSupermicro 2025Лотки комутаторів NVLink-59130 ТБ/с сукупне полотно3,6 кВт всьогоSupermicro 2025Силові полиці8132 кВт загальна вихідна потужність постійного струму0,8 кВт накладні витратиSupermicro 2025ДБЖ Bluefield-318Зберігання та безпечне розвантаженняВключено до складу обчислювальної системиРегістр 2024

Шафа важить приблизно 1,36 т (3 000 фунтів) і займає таку ж площу, як і звичайна стійка 42U (The Register, 2024). GB300 NVL72 представляє лінійку Blackwell Ultra, що включає вдосконалені графічні процесори B300 з 288 ГБ пам'яті HBM3e на GPU (на 50% більше, ніж у оригінальному B200 - 192 ГБ), що досягається за рахунок 12-ти висотних стеків HBM3e замість 8-ми висотних. Кожен суперчіп тепер об'єднує чотири графічні процесори B300 з двома центральними процесорами Grace, в порівнянні з оригінальною конфігурацією з двома графічними процесорами. Кожен суперчіп Grace-Blackwell поєднує 72 графічних ядра Blackwell Ultra з тактовою частотою 2,6 ГГц з 128-ядерним процесором Arm Neoverse V2, що працює на базовій частоті 3,1 ГГц. Інтегрована пам'ять HBM3e забезпечує пропускну здатність 8 ТБ/с на GPU з об'ємом 288 ГБ.

Інсайт з місця подій: Центр ваги стійки знаходиться на 18% вище, ніж у стандартних серверів, через щільне розміщення обчислювальних ресурсів у верхніх лотках. Для усунення мікровібрацій, що спостерігаються під час роботи під повним навантаженням, рекомендується кріпити монтажні рейки за допомогою болтів M12, а не стандартних гайок у обоймі.

2. Нагодуй звіра: доставка енергії

An GB300 NVL72 rack ships with built‑in PSU shelves, delivering 94.5% efficiency at full load. Peak consumption hits 120.8 kW during mixed‑precision training workloads—power quality analyzers typically record 0.97 power factor with <3% total harmonic distortion.

Порівняння топології напруги:

  • 208В/60Гц: Лінійний струм 335А, потрібна мідь 4/0 AWG (107 мм²)

  • 415В/50-60Гц: Лінійний струм 168А, потребує лише 70 мм² міді

  • 480В/60Гц: Лінійний струм 145 А, мінімальне розгортання в Північній Америці

Найкраща галузева практика передбачає забезпечення подвійного трифазного живлення 415 В на кожну стійку через роз'єми IEC 60309 на 160 А. Цей вибір скорочує втрати I²R на 75% порівняно з 208 В, зберігаючи при цьому сумісність з європейськими стандартами. Вимірювання на місцях показують, що в приміщеннях з температурою 22°C теплові втрати панелей вимикачів зазвичай не перевищують 85%.

Зменшення гармонік: Стійки GB300 NVL72 демонструють сумарні гармонійні спотворення 4,8% при типових навантаженнях для навчання ШІ. Розгортання, що перевищує вісім стійок, зазвичай вимагає 12-імпульсних випрямлячів на спеціальних трансформаторах, щоб забезпечити відповідність стандарту IEEE 519.

3. Плейбук з охолодження: Реальність теплотехніки

Кожен графічний процесор Blackwell Ultra має площу 744 мм² і розсіює до 1 000 Вт через інтерфейс холодної пластини. Процесор Grace додає ще 500 Вт через свої 128 ядер. Програма Dell IR7000 позиціонує рідину як основний шлях для обладнання класу Blackwell, заявляючи про потужність на стійку до 480 кВт із закритими теплообмінниками на задніх дверцятах (Dell Technologies, 2024).

Рекомендована теплова ієрархія:

  • ≤80 кВт/стелаж: Теплообмінники з задніми дверцятами з подачею води 18°C, витрата 35 л/хв

  • 80-132 кВт/стелаж: Обов'язкова наявність контурів прямого підключення до мікросхеми (DTC), подача 15°C, мінімум 30 л/хв

  • 132 кВт/стелаж: Потрібне занурювальне охолодження або конфігурації з розділеними стійками

Специфікації DTC з польових розгортань:

  • Холодна пластина ΔT: 12-15°C при повному навантаженні (температура переходу GPU 83-87°C)

  • Падіння тиску: 2,1 бар по всьому контуру з 30% пропіленгліколю

  • Розподіл потоку: ±3% відхилення на всіх 72 холодних пластинах GPU

  • Leak rate: <2 mL/year per QDC fitting (tested over 8,760 hours)

Критично важлива інформація: Мережа живлення Blackwell Ultra демонструє мікросекундні перехідні процеси, що досягають 1,4 рази більше стаціонарної потужності під час градієнтної синхронізації. Галузева практика рекомендує розраховувати охолодження на 110% від номінального TDP, щоб впоратися з цими тепловими стрибками без дроселювання графічного процесора.

4. Мережева структура: керування NVLink 5.0 та розширені можливості підключення

Кожен GB300 NVL72 містить 72 графічні процесори Blackwell Ultra з інтерфейсом NVLink 5.0, що забезпечує пропускну здатність 1,8 ТБ/с на кожен графічний процесор і загальну пропускну здатність NVLink 130 ТБ/с у всій системі. NVLink п'ятого покоління працює зі швидкістю передачі сигналу 200 Гбіт/с на канал, 18 каналів на один графічний процесор. Дев'ять мікросхем NVSwitch маршрутизують цей трафік із затримкою перемикання 300 наносекунд і підтримують 576 шляхів зв'язку GPU-GPU.

Для з'єднання між стійками тепер використовуються супермережеві карти ConnectX-8, що забезпечують мережеве з'єднання 800 Гбіт/с на GPU (вдвічі більше, ніж у попереднього покоління - 400 Гбіт/с), підтримуючи платформи NVIDIA Quantum-X800 InfiniBand і Spectrum-X Ethernet.

Архітектура кабелів:

  • Intra‑rack: 1,728 copper Twinax cables (75‑ohm impedance, <5m lengths)

  • Міжстійковий: 90 портів QSFP112 через трансивери 800G по OM4 MMF

  • Зберігання/керування: 18 DPU Bluefield-3 з двома каналами 800G кожен

Вимірювання на місцевості:

  • Бюджет на оптику: 1,5 дБ вносимих втрат на довжині 150 м OM4

  • BER performance: <10⁻¹⁵ sustained over 72‑hour stress tests

  • Щільність роз'ємів: 1,908 роз'ємів на стійку (включаючи живлення)

Найкращі практики передбачають доставку попередньо закінчених 144-волоконних магістральних збірок з поліруванням APC і перевірку кожного роз'єму за допомогою тестування втрат при введенні та зворотних втрат відповідно до стандартів TIA-568. Досвідчені бригади з двох осіб можуть завершити монтаж оптоволоконного кабелю GB300 NVL72 в середньому за 2,8 години - порівняно з 7,5 годинами, коли технічні спеціалісти прокладають кабель на місці.

Signal integrity insight: NVLink‑5 operates with 25 GBd PAM‑4 signaling. Typical installations maintain a 2.1 dB insertion loss budget per Twinax connection and <120 fs RMS jitter through careful cable routing and ferrite suppression.

5. Перевірений на практиці контрольний список для розгортання

Структурні вимоги:

  • Навантаження на підлогу: сертифіковано ≥14 кН/м² (2,030 фунтів на квадратний дюйм); розподілена вага перевищує більшість старих об'єктів

  • Сейсмічне армування: Установки в Зоні 4 вимагають додаткового X-образного кріплення згідно з IBC 2021

  • Vibration isolation: <0.5g acceleration at 10–1000 Hz to prevent NVLink errors

Енергетична інфраструктура:

  • Дві подачі 415В, 160А кожна, з моніторингом відгалужень Schneider PM8000

  • Розмір ДБЖ: 150 кВА на стійку (125% запасу міцності) з онлайн-топологією подвійного перетворення

  • Grounding: Isolated equipment ground with <1Ω resistance to facility MGB

Характеристики охолодження:

  • Coolant quality: <50 µS/cm conductivity, 30% propylene glycol, pH 8.5–9.5

  • Заміна фільтра: 5 мкм гофрований кожні 1 000 годин, 1 мкм остаточний кожні 2 000 годин

  • Виявлення витоків: Кондуктивні датчики рідини на всіх фітингах QDC з чутливістю 0,1 мл

Інвентаризація запасних частин:

  • Один лоток NVSwitch (термін виконання: 6 тижнів)

  • Два картриджі насоса CDU (напрацювання на відмову: 8 760 годин)

  • 20 трансиверів QSFP112 (частота відмов у польових умовах: 0,02% на рік)

  • Аварійний матеріал для термоінтерфейсу (Honeywell PTM7950, тюбики по 5 г)

SLA для віддалених працівників: 4-годинна реакція на місці стає галузевим стандартом - провідні партнери з розгортання підтримують цей показник у багатьох країнах, забезпечуючи >99% часу безвідмовної роботи.

6. Характеристика продуктивності при виробничих навантаженнях

Бенчмарки міркувань ШІ (зі звітів про раннє розгортання):

  • Модель DeepSeek R1-671B: Стабільна пропускна здатність до 1 000 токенів на секунду

  • Модель параметрів GPT-3 175B: 847 токенів/секунду/графічний процесор в середньому

  • Стабільна дифузія 2.1: 14,2 зображення/сек при роздільній здатності 1024×1024

  • ResNet-50 Навчання ImageNet: стабільна пропускна здатність 2340 зразків на секунду

Масштабування енергоефективності:

  • Використання однієї стійки: 1,42 GFLOPS/Вт при 95% завантаженні графічного процесора

  • Кластер на 10 стійок: 1,38 GFLOPS/Вт (охолодження знижує ефективність)

  • Потужність холостого ходу мережі: 3,2 кВт на стійку (NVSwitch + трансивери)

Покращення продуктивності міркувань ШІ: GB300 NVL72 забезпечує 10-кратне збільшення кількості токенів на секунду на користувача та 5-кратне покращення TPS на мегават порівняно з Hopper, що в сукупності дає 50-кратне потенційне збільшення заводської продуктивності ШІ.

Вплив термоциклічності: Після 2 000 годин виробничої експлуатації на перших етапах розгортання повідомляється про погіршення продуктивності на 0,3% через витікання матеріалу термоінтерфейсу. Планова заміна TIM з інтервалом у 18 місяців підтримує пікову продуктивність.

7. Аналіз TCO у хмарі та на місці

Lambda пропонує графічні процесори B200 всього за $2,99 за графічну годину з багаторічними зобов'язаннями (Lambda 2025). Фінансове моделювання, що включає реальні витрати на обладнання, отримані в результаті розгортання в індустрії, показує:

Розподіл витрат на одну стійку за 36 місяців:

  • Капітальні витрати на обладнання: $3,7-4,0 млн (включаючи запчастини та інструменти) для GB300 NVL72

  • Потужність об'єкту: $310 тис. за ціною $0,08/кВт-год при середньому завантаженні 85%.

  • Інфраструктура охолодження: $180 тис. (CDU, водопровід, управління)

  • Операційний персонал: $240 тис. (вартість 0,25 повної ставки при повному завантаженні)

  • Разом: $4,43-4,73 млн проти $4,7 млн у хмарному еквіваленті

Беззбитковість досягається при середньому рівні використання 67% за 18 місяців, враховуючи амортизацію, фінансування та альтернативні витрати. Фінансові директори підприємств отримують передбачуваність бюджету, уникаючи при цьому прив'язки до хмарного постачальника.

8. GB300 проти GB200: Розуміння Blackwell Ultra

На фото попереднє покоління GB200

GB300 NVL72 (Blackwell Ultra) являє собою значний розвиток у порівнянні з оригінальною моделлю GB200 NVL72. Ключові покращення включають в себе в 1,5 рази більшу продуктивність обчислень ШІ, 288 ГБ пам'яті HBM3e на GPU (проти 192 ГБ), а також посилений фокус на масштабуванні висновку за часом тестування для додатків, що працюють з ШІ-роздумами.

Нова архітектура забезпечує 10-кратний приріст токенів в секунду на користувача і 5-кратне поліпшення TPS на мегават в порівнянні з Hopper, що в сукупності дає 50-кратне потенційне збільшення заводської продуктивності ШІ. Це робить GB300 NVL72 спеціально оптимізованим для нової ери штучного інтелекту, коли такі моделі, як DeepSeek R1, потребують значно більших обчислень під час виведення для підвищення точності.

Графік доступності: Системи GB300 NVL72 очікуються від партнерів у другій половині 2025 року, порівняно з GB200 NVL72, яка доступна зараз.

9. Чому компанії зі списку Fortune 500 обирають спеціалізованих партнерів з розгортання

Провідні фахівці з розгортання встановили понад 100 000 графічних процесорів у більш ніж 850 центрах обробки даних, підтримуючи 4-годинні глобальні угоди про рівень обслуговування (SLA) за допомогою великих польових інженерних команд. З 2022 року галузь ввела в експлуатацію тисячі кілометрів оптоволокна і кілька мегават виділеної інфраструктури ШІ.

Останні показники розгортання:

  • Середній термін підготовки майданчика: 6,2 тижні (порівняно з 11 тижнями в середньому по галузі)

  • Успішність з першого разу: 97.3% для тестування при включенні живлення

  • Проблеми після розгортання: 0,08% відмов компонентів у перші 90 днів

OEM-виробники постачають обладнання; спеціалізовані партнери перетворюють обладнання на виробничу інфраструктуру. Залучення досвідчених команд розгортання на етапі планування може скоротити терміни на 45% завдяки використанню збірних силових джгутів, попередньо підготовлених контурів охолодження та оптоволоконних пучків з заводськими закінченнями.

Прощальна думка

Шафа GB300 NVL72 являє собою фундаментальний перехід від "серверів у стійках" до "центрів обробки даних у шафах". Фізика невблаганна: 120 кВт обчислювальної потужності вимагають точності в кожному підключенні живлення, контурі охолодження та термінації оптоволокна. Опануйте інженерні основи з першого дня, і Blackwell Ultra забезпечить трансформаційну продуктивність міркувань штучного інтелекту на довгі роки.

Готові обговорити технічні деталі, які ми не змогли вмістити в 2 000 слів? Наші інженери з розгортання процвітають у таких розмовах - заплануйте технічне занурення на solutions@introl.com.

Посилання

Dell Technologies. 2024. "Dell AI Factory трансформує центри обробки даних завдяки інноваціям у сфері охолодження, високопродуктивних обчислень і зберігання даних для штучного інтелекту". Прес-реліз, 15 жовтня. Прес-служба Dell Technologies

Інтрол. 2025. "Розгортання інфраструктури GPU та глобальні польові інженери". Доступно 23 червня. introl.com

Лямбда. 2025. "Хмарне ціноутворення ШІ - кластери NVIDIA B200". Доступно 23 червня. Ціноутворення Lambda Labs

NVIDIA. 2025. "Сторінка продукту GB300 NVL72". Доступ 23 червня. Центр обробки даних NVIDIA

NVIDIA. 2025. "Фабрична платформа NVIDIA Blackwell Ultra AI прокладає шлях до епохи штучного інтелекту". Прес-реліз, 18 березня. Новини NVIDIA

Супермікро. 2025. "Специфікація суперкластера NVIDIA GB300 NVL72". Лютий. Технічний паспорт Supermicro

Реєстр. 2024. Манн, Тобіас. "Одна стійка, 120 кВт обчислювальної потужності: Ближчий погляд на NVIDIA DGX GB200 NVL72 Beast". 21 березня. The Register



Далі
Далі

Масштабований персонал на місці: Запуск критично важливої інфраструктури на гіпершвидкості