40-250 кВт на стійку: рішення для центрів обробки даних екстремальної щільності
Центри обробки даних, побудовані п'ять років тому, насилу охолоджують 10 кВт на стійку. Сучасні робочі навантаження ШІ вимагають щонайменше 40 кВт, а розгортання наступного покоління - 250 кВт. Розрив між існуючою інфраструктурою та сучасними вимогами створює проблему вартістю 100 мільярдів доларів, яку може вирішити розумна інженерія.
Системи NVIDIA GB200 NVL72 споживають 140 кВт в одній стійці.¹ Останні розгортання Microsoft Azure зазвичай досягають 50 кВт на стійку.² Google просуває щільність 60 кВт в своїх модулях TPU.³ Інфраструктура, яка забезпечувала роботу вчорашньої хмари, не може впоратися з завтрашнім ШІ, і організації стоять перед суворим вибором: перебудовуватися з нуля або розробляти креативні рішення, які подолають цей розрив.
Фізика охолодження екстремальної щільності
Традиційне повітряне охолодження фальшпідлоги катастрофічно не справляється з навантаженням понад 15 кВт на стійку. Рециркуляція гарячого повітря може створити умови теплової втечі, коли температура виходить з-під контролю. Одна стійка потужністю 40 кВт генерує стільки ж тепла, скільки 14 обігрівачів для житлових приміщень, що працюють безперервно. З'єднайте вісім таких стійок у ряд, і ви зможете керувати тепловою потужністю невеликої офісної будівлі площею 200 квадратних футів.
Інженери вирішують проблеми екстремальної щільності за допомогою трьох фундаментальних підходів. Пряме рідинне охолодження подає охолоджуючу рідину безпосередньо до джерела тепла, знімаючи 30-40 кВт на кожну стійку за допомогою теплообмінників на задніх дверцятах або холодних пластин. Занурювальне охолодження занурює цілі системи в діелектричну рідину, що дозволяє працювати зі щільністю 50-100 кВт, усуваючи при цьому потребу в вентиляторах. Гібридні підходи поєднують кілька технологій, використовуючи рідинне охолодження для графічних процесорів, зберігаючи повітряне охолодження для компонентів з меншою щільністю.
Математика свідчить на користь рідинного охолодження. Коефіцієнт теплопередачі води перевищує коефіцієнт теплопередачі повітря у 3 500 разів.⁴ Один галон води може відводити стільки ж тепла, скільки 3 000 кубічних футів повітря. Системи з рідинним охолодженням досягають показників ефективності використання енергії (PUE) 1,02-1,10 порівняно з 1,4-1,8 для традиційного повітряного охолодження.⁵ Кожне 0,1 покращення PUE економить приблизно 1 мільйон доларів щорічно на об'єкті потужністю 10 МВт.⁶
Проблеми розподілу електроенергії множаться в масштабах.
Подача 250 кВт на одну стійку вимагає фундаментальної перебудови енергетичної інфраструктури. Традиційні схеми на 208 В вимагають з'єднань на 1200 ампер - кабельні лінії товщиною з людську руку. Сучасні об'єкти розгортають розподіл на 415 або 480 В, щоб зменшити поточні вимоги, але навіть ці системи вимагають значних інвестицій в мідні кабелі. Одна стійка потужністю 250 кВт потребує енергетичної інфраструктури, еквівалентної інфраструктурі 50 типових будинків.
Інженери Інтрол регулярно стикаються з об'єктами, які намагаються переобладнати 5-кіловатні конструкції для 40-кіловатних навантажень. Автоматичні вимикачі постійно спрацьовують. Трансформатори перегріваються. Блоки розподілу електроенергії виходять з ладу під навантаженням, на яке вони ніколи не були розраховані. Організації часто виявляють, що загальна потужність їхньої будівлі не може підтримувати більше кількох стійок високої щільності, що призводить до дорогої модернізації інженерних мереж, яка займає 18-24 місяці.
Розумне проектування електропостачання починається з розподілу постійного струму, де це можливо. Постійний струм усуває втрати на перетворення, на які витрачається 10-15% енергії в традиційних системах змінного струму.⁷ Проект Facebook's Open Compute Project продемонстрував, що розподіл постійного струму знижує загальне енергоспоживання на 20%, одночасно підвищуючи надійність.⁸ Сучасні графічні системи все частіше підтримують прямий вхід постійного струму, усуваючи кілька етапів перетворення, які генерують тепло і знижують ефективність.
Механічна інфраструктура потребує повного переосмислення.
Стандартна підлога центру обробки даних витримує 150-250 фунтів на квадратний фут. Повністю завантажена стійка потужністю 250 кВт важить понад 8 000 фунтів, зосереджена всього на 10 квадратних футах.⁹ Посилення підлоги стає обов'язковим, що додає 50 000-100 000 доларів США на кожну стійку на структурну модернізацію. Сейсмічні зони створюють додаткові проблеми, вимагаючи спеціалізованих систем ізоляції, які запобігають пошкодженню обладнання під час землетрусів.
Рідинне охолодження створює нові механічні складнощі. Розподіл охолоджуючої рідини потребує насосів, теплообмінників та систем фільтрації, яких бракує традиційним системам. Розгортання системи рідинного охолодження потужністю 1 МВт потребує 400-500 галонів на хвилину потоку охолоджуючої рідини.¹⁰ Виявлення витоків стає критично важливим - один витік охолоджуючої рідини може знищити обладнання вартістю в мільйони доларів за лічені секунди. Introl використовує систему виявлення витоків з потрійним резервуванням та автоматичними запірними клапанами, які спрацьовують протягом 100 мілісекунд після виявлення вологи.
Інфраструктура трубопроводів сама по собі є величезною інвестицією. Мідні труби коштують від 30 до 50 доларів за погонний фут.¹¹ Один ряд стійок з рідинним охолодженням потребує 500-1000 футів трубопроводу для подачі та повернення. Колектори, клапани та точки з'єднання додають $20,000-$30,000 на кожну стійку. Механічна інфраструктура часто коштує більше, ніж обчислювальне обладнання, яке вона підтримує.
Архітектура мережі адаптується до вимог щільності.
Обчислення з екстремальною щільністю вимагають безпрецедентної пропускної здатності мережі. Для оптимальної продуктивності кожному графічному процесору NVIDIA H100 потрібно 400 Гбіт/с мережевого підключення.¹² Серверу з 8 графічними процесорами потрібно 3,2 Тбіт/с сукупної пропускної здатності - це більше, ніж вимагали цілі центри обробки даних п'ять років тому. Традиційні комутаційні архітектури для верхньої частини стійки намагаються задовольнити ці вимоги.
Щільне розгортання сприяє впровадженню дезагрегованих мережевих архітектур. Топології "корінь-листок" забезпечують стабільну затримку і пропускну здатність незалежно від структури трафіку. Кремнієва фотоніка забезпечує з'єднання зі швидкістю 800 Гбіт/с і 1,6 Тбіт/с, чого не може досягти мідь.¹³ У розгортаннях Introl все частіше використовуються мідні кабелі з прямим підключенням (DAC) для з'єднань довжиною до 3 метрів і активні оптичні кабелі (AOC) для довших відрізків, оптимізуючи як витрати, так і енергоспоживання.
Управління кабелями стає напрочуд складним при екстремальній щільності. Стійка на 40 графічних процесорів потребує понад 200 кабелів для живлення, підключення до мережі та керування. Кожен кабель генерує тепло через електричний опір. Погана прокладка кабелів обмежує потік повітря, створюючи гарячі точки, які викликають теплове дроселювання. Інженери Introl приділяють 20-30% часу на прокладку кабелів, використовуючи спеціалізовані системи прокладки, які підтримують належні радіуси вигинів, максимізуючи при цьому ефективність охолодження.
Географічні обмеження формують стратегії розгортання.
Сінгапур є світовим лідером у впровадженні рідинного охолодження: нові об'єкти розраховані на 50-100 кВт на стійку з першого дня.¹⁴ Дефіцит землі зумовлює вертикальне розширення та максимальну обчислювальну потужність на квадратний фут. Урядові стимули підтримують впровадження рідинного охолодження шляхом зниження податків та прискорення отримання дозволів. Introl's присутність в Азіатсько-Тихоокеанському регіоні позиціонує нас в центрі трансформації, з місцевими інженерами, які розуміють регіональні вимоги та правила.
Ринки Північної Європи використовують переваги холодного клімату для вільного охолодження. Стокгольмські дата-центри використовують холодну воду Балтійського моря для відведення тепла, завдяки чому цілорічний показник PUE не перевищує 1,10.¹⁵ Норвезькі об'єкти поєднують гідроелектроенергію з природним охолодженням для створення найефективнішої у світі інфраструктури штучного інтелекту. Introl керує розгортаннями, які використовують ці географічні переваги, підтримуючи глобальні стандарти зв'язку.
Доступність води все частіше визначає вибір місця розташування. Рідинні системи охолодження споживають 0,1-0,2 галона на хвилину на кожен кВт потужності охолодження.¹⁶ Об'єкт потужністю 10 МВт потребує 1000-2000 галонів на хвилину - цього достатньо, щоб заповнювати олімпійський басейн кожні п'ять годин. Пустельні об'єкти стикаються з неможливим вибором між неефективністю повітряного охолодження та дефіцитом води. Далекоглядні організації при виборі місця розташування дата-центру оцінюють права на воду разом з наявністю електроенергії.
Економічні моделі визначають рішення про усиновлення.
Економічне обґрунтування інфраструктури екстремальної щільності залежить від характеристик робочого навантаження. Навантаження для навчання ШІ, які виконуються безперервно протягом тижнів, виправдовують будь-які інвестиції, що підвищують ефективність. Підвищення продуктивності на 1% під час місячного тренування економить 7,2 години обчислювального часу. При вартості 40 доларів за GPU-годину для екземплярів H100, здавалося б, невеликі оптимізації приносять величезні прибутки.¹⁷
Порівняння капітальних витрат (CapEx) свідчить на користь традиційної інфраструктури, але операційні витрати (OpEx) показують іншу картину. Рідинне охолодження знижує енергоспоживання на 30-40% порівняно з повітряним.²⁸ Розгортання 1 МВт економить 400 000-500 000 доларів США щорічно лише на витратах на електроенергію.²⁹ Зменшення механічного зносу подовжує термін служби обладнання на 20-30%, відтерміновуючи витрати на заміну.²⁰ Вища щільність дозволяє збільшити кількість обчислень на існуючих об'єктах, уникаючи витрат на нове будівництво, які в середньому становлять 10-15 мільйонів доларів США за мегават.²¹
Моделі загальної вартості володіння (TCO) повинні враховувати альтернативні витрати. Організації, які не можуть розгорнути інфраструктуру високої щільності, втрачають конкурентну перевагу перед тими, хто може. Без оптимізованої інфраструктури тренувальні запуски GPT OpenAI займали б у 10 разів більше часу.²² Різниця між 40 кВт і 100 кВт на стійку визначає, чи будуть моделі навчатися протягом тижнів або місяців. Лідерство на ринку все більше залежить від можливостей інфраструктури, які традиційні показники не можуть врахувати.
Операційна складність вимагає нової експертизи.
Управління інфраструктурою екстремальної щільності вимагає навичок, яких бракує традиційним командам центрів обробки даних. Рідинні системи охолодження вимагають сантехнічних знань, які рідко зустрічаються в ІТ-відділах. Технічний персонал повинен розуміти динаміку рідини, перепади тиску та хімічний склад охолоджувальних рідин. Неправильна конфігурація одного параметра може призвести до катастрофічної поломки - занадто високий тиск може розірвати з'єднання, а занадто низький - викликати кавітацію насоса.
Introl заповнює прогалину в знаннях за допомогою спеціалізованих навчальних програм для 550 інженерів на місцях. Команди вчаться діагностувати проблеми з потоком охолоджувальної рідини, виконувати профілактичне обслуговування розподільчих блоків охолодження та реагувати на випадки витоків. Програми сертифікації охоплюють специфічні вимоги виробників до різних технологій охолодження. Регіональні команди обмінюються найкращими практиками через нашу глобальну базу знань, забезпечуючи стабільну якість обслуговування у всіх 257 локаціях.
Системи моніторингу генерують від 10 до 100 разів більше даних, ніж традиційна інфраструктура. Кожна стійка генерує тисячі точок телеметрії, що охоплюють температуру, тиск, швидкість потоку, енергоспоживання та стан компонентів. Алгоритми машинного навчання виявляють закономірності, які передбачають збої ще до того, як вони відбудуться. Оперативні команди Introl використовують предиктивну аналітику для планування технічного обслуговування під час запланованих простоїв, досягаючи 99,999% доступності для критично важливих робочих навантажень ШІ.
Майбутні технології розширюють межі.
Графічні процесори наступного покоління вимагатимуть ще більш екстремальної інфраструктури. Дорожня карта NVIDIA передбачає 1500-2000 Вт на графічний процесор до 2027 року.²³ Серія MI400 від AMD націлена на аналогічне енергоспоживання.²⁴ Двигуни Cerebras в масштабі пластини вже споживають 23 кВт в одному блоці.²⁵ Інфраструктура завтрашнього дня повинна працювати з щільностями, які сьогодні здаються неможливими.
Двофазне занурювальне охолодження є найкращим рішенням для екстремальної щільності. Діелектричні рідини киплять при точно контрольованих температурах, забезпечуючи ізотермічне охолодження, яке підтримує компоненти в оптимальних робочих точках. Фазовий перехід від рідини до пари поглинає величезну кількість тепла - до 250 кВт на стійку.²⁶ Міністерство енергетики США фінансує дослідження двофазного охолодження для ексафлопсних обчислювальних систем.²⁷
Малі модульні реактори (ММР) можуть усунути обмеження в енергопостачанні. Гіперскалери досліджують можливість спільного розміщення ядерної енергетики з центрами обробки даних, забезпечуючи безвуглецеву електроенергію за передбачуваною вартістю. Один ММР потужністю 300 МВт може живити 3000 стійок потужністю 100 кВт - достатньо для 24 000 графічних процесорів.²⁸ Схвалення регуляторних органів залишається складним завданням, але економічні показники стають переконливими при достатньому масштабі.
Шлях вперед вимагає негайних дій.
Організації, які будують інфраструктуру штучного інтелекту, стикаються з критично важливими рішеннями вже сьогодні, які визначають конкурентну позицію на наступне десятиліття. Модернізація існуючих потужностей для забезпечення щільності 40 кВт коштує від 50 000 до 100 000 доларів за стійку.²⁹ Побудова нової інфраструктури потужністю 100 кВт коштує 200 000-300 000 доларів за стійку, але забезпечує злітно-посадкову смугу для майбутнього зростання.²⁰ Неправильний вибір замикає організації на застарілій інфраструктурі в той час, коли робочі навантаження ШІ стрімко зростають.
Успішний перехід починається з комплексної оцінки. Інженерні команди Introl оцінюють наявні потужності, інфраструктуру охолодження, структурну підтримку та мережеву архітектуру, щоб забезпечити оптимальну продуктивність. Ми визначаємо вузькі місця, які обмежують збільшення щільності, і розробляємо поетапні плани модернізації, які мінімізують перебої в роботі. Наша глобальна присутність забезпечує швидке розгортання спеціалізованого обладнання та експертизи там, де клієнтам потрібні рішення з екстремально високою щільністю.
Переможцями в інфраструктурі ШІ стануть ті, хто прийме екстремальну щільність, а не боротиметься з нею. Кожен місяць затримки означає, що конкуренти швидше навчають моделі, швидше розгортають функції і першими захоплюють ринки. Питання не в тому, чи варто впроваджувати інфраструктуру високої щільності, а в тому, як швидко організації можуть трансформувати свої потужності для підтримки обчислювальних вимог, які визначають конкурентну перевагу в епоху ШІ.
Посилання
NVIDIA. "Стійка з рідинним охолодженням NVIDIA DGX GB200 NVL72". Корпорація NVIDIA, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/
Microsoft Azure. "Інновації в інфраструктурі для робочих навантажень ШІ". Корпорація Microsoft, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/
Google Cloud. "TPU v5p: Хмарні блоки TPU для великих мовних моделей". Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p
ASHRAE. "Теплові властивості води в порівнянні з повітрям у центрах обробки даних". Технічний комітет ASHRAE 9.9, 2024.
Uptime Institute. "Глобальний огляд центрів обробки даних 2024: Тенденції PUE". Uptime Institute, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024
Національна лабораторія Лоуренса Берклі. "Аналіз витрат і вигод енергоефективності центрів обробки даних". LBNL, 2023. https://datacenters.lbl.gov/resources
Open Compute Project. "Аналіз переваг розподілу електроенергії постійного струму". Фонд OCP, 2023. https://www.opencompute.org/projects/dc-power
---. "Звіт про ефективність центру обробки даних Facebook Prineville". Фонд OCP, 2023. https://www.opencompute.org/datacenter/prineville
Schneider Electric. "Посібник з ваги стійок високої щільності та навантаження на підлогу". Schneider Electric, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/
Vertiv. "Керівництво з проектування рідинного охолодження для інфраструктури штучного інтелекту". Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/
RSMeans. "Дані про механічні витрати 2024 року: Трубопровідні системи". Gordian RSMeans Data, 2024.
NVIDIA. "Офіційний документ про архітектуру графічного процесора NVIDIA H100 Tensor Core". NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet
Intel. "Кремнієва фотоніка: Прорив у підключенні центрів обробки даних". Корпорація Intel, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html
Infocomm Media Development Authority. "Дорожня карта центрів обробки даних Сінгапуру до 2024 року". IMDA Сінгапур, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap
DigiPlex. "Стокгольмський центр обробки даних: Інновації сталого охолодження". DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter
ASHRAE. "Керівництво з рідинного охолодження для центрів обробки даних, 2-е видання". Технічний комітет ASHRAE 9.9, 2024.
Amazon Web Services. "EC2 P5 Ціноутворення на екземпляри". AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/
Dell Technologies. "Аналіз рентабельності інвестицій у пряме рідинне охолодження". Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm
Управління енергетичної інформації США. "Комерційні тарифи на електроенергію по штатам". EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php
Занурення. "Дослідження впливу занурювального охолодження на довговічність обладнання". Submer, 2023. https://submer.com/resources/hardware-longevity-study/
JLL. "Довідник вартості будівництва центрів обробки даних 2024". Jones Lang LaSalle, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs
OpenAI. "Вимоги до навчальної інфраструктури GPT-4". OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure
NVIDIA. "Багаторічне оновлення дорожньої карти GPU". Доповідь NVIDIA GTC 2024, березень 2024.
AMD. "Попередній анонс серії Instinct MI400". День інвестора AMD, червень 2024 року.
Мозок. "Технічні характеристики двигуна вафельних ваг CS-3". Cerebras Systems, 2024. https://www.cerebras.net/product-chip/
3M. "Двофазне занурювальне охолодження Novec для центрів обробки даних". Корпорація 3M, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/
Міністерство енергетики США. "Проект ексафлоплексних обчислень: Інновації в галузі охолодження". DOE Office of Science, 2024. https://www.exascaleproject.org/cooling-research/
NuScale Power. "Застосування SMR для живлення центрів обробки даних". NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers
Gartner. "Аналіз витрат на модернізацію центрів обробки даних 2024". Gartner, Inc., 2024.
---. "Економіка будівництва центрів обробки даних зі штучним інтелектом з нуля". Gartner, Inc., 2024.