Як Isambard-AI розгорнув 5 448 графічних процесорів за 4 місяці: Новий план для інфраструктури АІ
Зайдіть на переобладнаний склад Національного центру композитів у Брістолі, і ви побачите 150 тонн найсучаснішого комп'ютерного обладнання, що гуде за шафами з рідинним охолодженням: Isambard-AI, найпотужніший у Великобританії суперкомп'ютер зі штучним інтелектом. Звичайно, в заголовках пишуть про його 21 екзафлопс продуктивності ШІ, але ось чого не вистачає: надзвичайних інфраструктурних викликів, які команда подолала, щоб запустити цей проект вартістю 225 мільйонів фунтів стерлінгів всього за 24 місяці. П'ять років тому? Неможливі терміни.
Розгортання 5 448 суперчіпів NVIDIA Grace Hopper в Isambard-AI свідчить про значний розвиток. Успіх в обчисленнях ШІ тепер залежить не лише від купівлі графічних процесорів. Вам потрібно освоїти складну екосистему живлення, охолодження, мереж та логістики, яку вимагає сучасна інфраструктура ШІ. Організації, які планують широкомасштабне розгортання GPU, повинні краще розуміти ці виклики та спеціалізовані знання, необхідні для їх подолання.
Коли 5 мегават відповідають 150 тоннам кремнію
Масштаби Isambard-AI ламають традиційні уявлення про центри обробки даних. У кожній з 12 шаф HPE Cray EX4000 розміщено 440 графічних процесорів, що генерують таку щільність тепла, яка розплавила б звичайні системи. Традиційне повітряне охолодження не справляється з потужністю понад 20 кВт на стійку. Isambard-AI? Понад 400 кВт на шафу. Рішенням стало 100% пряме рідинне охолодження, але його реалізація вимагала абсолютно нових навичок.
"Те, що ми спостерігаємо з розгортаннями на кшталт Isambard-AI, є фундаментальним зрушенням у тому, що являє собою експертиза центрів обробки даних", - показує ландшафт розгортання інфраструктури. Компаніям, які раніше зосереджувалися на традиційних стоєчних операціях, тепер потрібні інженери, які розуміють динаміку рідинного охолодження, управління кабелями високої щільності і те, як вводити в експлуатацію тисячі графічних процесорів одночасно. Команда Брістольського університету працювала зі спеціалізованими партнерами по розгортанню, щоб встановити понад 40 000 оптоволоконних з'єднань. Цього достатньо, щоб оперезати невелике місто. І вони повинні були підтримувати точність, необхідну для з'єднань NVLink 5-го покоління, що працюють на швидкості 1,8 ТБ/с.
Найцікавіше те, що проект пройшов шлях від підписання контракту до початку роботи менш ніж за чотири місяці. Як це сталося? Спеціалізовані компанії з розгортання інфраструктури GPU тепер можуть мобілізувати сотні кваліфікованих техніків протягом 72 годин. Це не традиційні ІТ-підрядники. Це спеціалізовані команди, які знають специфікації крутного моменту для з'єднань рідинного охолодження та оптимальну послідовність для підключення тисяч графічних процесорів без перевантаження енергосистеми.
Прихована складність інфраструктури, що використовує штучний інтелект
Традиційні суперкомп'ютери модернізуються для роботи зі штучним інтелектом. Isambard-AI був розроблений з нуля для додатків штучного інтелекту. Їхній підхід, орієнтований на штучний інтелект, вплинув на кожне інфраструктурне рішення. Команда обрала модульну конструкцію центру обробки даних HPE і зібрала його на місці всього за 48 годин. Вони обрали джерело живлення з нульовим рівнем викидів вуглецю, що відповідає 4-му місцю системи в глобальному рейтингу енергоефективності.
Мережева інфраструктура сама по собі є результатом величезної інженерної координації. Мережа HPE Slingshot 11 забезпечує двонаправлену пропускну здатність 25,6 Тбіт/с через 64 порти, при цьому кожен вузол отримує пропускну здатність 800 Гбіт/с для інжекції в мережу. Встановлення та перевірка цієї складної мережі з'єднань вимагала спеціальних знань у сфері високопродуктивних мереж, які виходять далеко за рамки типових розгортань на підприємствах. Сучасні фахівці з інфраструктури графічних процесорів повинні розуміти фізичний рівень і те, як різні топології з'єднань впливають на продуктивність робочих навантажень ШІ.
Постачання електроенергії створило свої унікальні виклики. Хоча загальна потужність Isambard-AI в 5 МВт може здатися скромною порівняно з надвеликими центрами обробки даних, щільність і критичність цього джерела живлення створили унікальні вимоги. Кожен суперчіп Grace Hopper вимагає точної подачі живлення. Оскільки 5 448 з них працюють разом, навіть незначні коливання можуть призвести до нестабільності системи. Команда розгортання впровадила складні системи управління живленням з можливостями моніторингу в реальному часі, які можуть виявляти аномалії і реагувати на них протягом мілісекунд.
Вчимося на прикладі європейської гонки інфраструктури штучного інтелекту
Розгортання Isambard-AI відбулося в той час, коли європейські країни інтенсивно змагалися за першість у сфері ШІ. Фінська система LUMI пропонує 380 петафлопс традиційної обчислювальної потужності. Німецький суперкомп'ютер Jupiter обіцяє стати першою в Європі ексафлопільною системою. Проте Isambard-AI досяг оперативного статусу швидше, ніж будь-який з його європейських аналогів. Він пройшов шлях від початкової пропозиції до повної експлуатації менш ніж за два роки. Порівняйте це з типовим терміном у 4-5 років для порівнянних систем.
Ця перевага у швидкості частково пояснюється оптимізацією процесів закупівель у Великобританії після Brexit. Але більшою мірою вона зумовлена еволюцією методологій розгортання графічних процесорів. Традиційне встановлення суперкомп'ютерів відбувалося в декілька послідовних етапів: інфраструктура, потім обладнання, потім мережа, потім програмне забезпечення. Сучасні розгортання GPU використовують паралельні робочі процеси. Спеціалізовані команди одночасно працюють над встановленням рідинного охолодження, введенням GPU в експлуатацію та конфігурацією мережі, що значно скорочує терміни.
Контраст з іншими європейськими розгортаннями дає цінні уроки. Іспанська система MareNostrum 5, незважаючи на свої вражаючі технічні характеристики, потребувала значної модернізації існуючих об'єктів. Італійська система Leonardo зіткнулася із затримками в інтеграції можливостей прискорення ШІ. Успіх Isambard-AI демонструє, що спеціально створена інфраструктура ШІ, розгорнута командами зі спеціальним досвідом роботи з графічними процесорами, може забезпечити більш швидкий вихід на науковий рівень, ніж модернізовані системи HPC.
Дефіцит експертизи загрожує амбіціям АІ
Організації по всьому світу змагаються за розгортання інфраструктури штучного інтелекту, але виникла критична прогалина в навичках. Традиційним технічним спеціалістам центрів обробки даних, якими б досвідченими вони не були, часто не вистачає спеціальних знань, необхідних для розгортання сучасних графічних процесорів. Системи рідинного охолодження вимагають розуміння гідродинаміки та терморегулювання. Конфігурації з високою щільністю графічних процесорів вимагають досвіду в подачі живлення та оптимізації повітряних потоків, що виходить за рамки звичайного розгортання серверів.
Ця прогалина в знаннях найсильніше б'є по кількох сферах. Управління кабелями для кластерів графічних процесорів стало спеціалізованою дисципліною. Тисячі високошвидкісних з'єднань Isambard-AI потребують точної маршрутизації для збереження цілісності сигналу та забезпечення доступу для обслуговування. Фахівці з електроживлення та охолодження повинні розуміти не лише вимоги до стаціонарного режиму, але й динамічну поведінку робочих навантажень ШІ, які можуть переходити з холостого ходу на повну потужність за мілісекунди.
Такі компанії, як introl.com, з'явилися, щоб заповнити цю прогалину, створюючи спеціалізовані команди, які поєднують традиційні навички роботи з центрами обробки даних зі специфічними знаннями в галузі GPU. Їх розгортання систем, що перевищують 1000 GPU-вузлів, демонструє масштаби, в яких працює цей новий тип фахівців з інфраструктури. Здатність мобілізувати 40 техніків протягом тижня, як це було продемонстровано в недавніх розгортаннях великих хмарних провайдерів GPU, являє собою нову операційну можливість, яка не існувала в традиційній індустрії центрів обробки даних.
Після розгортання: підтримка досконалості інфраструктури штучного інтелекту
Виклики не закінчуються, коли вмикається останній графічний процесор. Обслуговування такої системи, як Isambard-AI, вимагає постійної оптимізації та проактивного управління. Команда Брістольського університету впровадила складні системи моніторингу, які відстежують все - від моделей використання графічних процесорів до швидкості потоку охолоджувальної рідини. Оскільки система має 850 ГБ уніфікованого адресного простору пам'яті на кожен вузол, навіть незначна неефективність може суттєво вплинути на продуктивність досліджень.
Сучасна інфраструктура графічних процесорів вимагає DevOps-підходу до фізичних систем. Оновлення прошивки повинні бути ретельно організовані на тисячах пристроїв інженерними командами. Системи охолодження потребують прогнозованого обслуговування на основі моделей використання та умов навколишнього середовища. Мережеві конфігурації потребують постійного налаштування для оптимізації під мінливі моделі робочого навантаження. Така операційна складність спонукає до розробки спеціалізованих моделей обслуговування, в яких партнери з інфраструктури забезпечують постійну оптимізацію, а не одноразове розгортання.
Економічні наслідки були значними. Кожен суперчіп Grace Hopper - це значні капіталовкладення. Час простою безпосередньо впливає на рентабельність інвестицій. Організації, які розгортають великі кластери графічних процесорів, все більше покладаються на партнерів, які можуть надати не лише послуги з встановлення, але й постійної оптимізації. Здатність підтримувати коефіцієнт використання 95%+, на який орієнтуються провідні компанії, що розгортають інфраструктуру штучного інтелекту, вимагає постійної уваги до планування робочого навантаження, розподілу ресурсів і стану системи.
Складаємо карту майбутнього інфраструктури штучного інтелекту
Успішне розгортання Isambard-AI дає важливі уроки для організацій, які планують власні ініціативи з розвитку ШІ-інфраструктури. По-перше, ера ставлення до графічних процесорів як до простих серверних компонентів закінчилася. Сучасні системи штучного інтелекту вимагають цілісного підходу до живлення, охолодження, мережевих підключень і роботи вже на ранніх стадіях планування. По-друге, стислі терміни, досягнуті Isambard-AI (від концепції до експлуатації менш ніж за два роки), стають новим стандартом, але тільки для організацій, які співпрацюють зі спеціалізованими командами з розгортання.
В майбутньому інфраструктурні виклики лише посилюватимуться. Архітектура NVIDIA Blackwell обіцяє ще більшу щільність потужності, яка в деяких конфігураціях перевищує 1000 Вт на GPU. Рідинне охолодження перетвориться з додаткової опції на абсолютну необхідність. Вимоги до пропускної здатності мережі продовжуватимуть зростати в геометричній прогресії, оскільки розміри моделей наближаються до 10 трильйонів параметрів. Організації, які не мають доступу до спеціалізованої інфраструктури графічних процесорів, все частіше виявлятимуться нездатними конкурувати в революції штучного інтелекту.
Інвестиції Великобританії в Isambard-AI - це не просто технічне досягнення. Це план того, як країни та організації можуть швидко розгортати інфраструктуру штучного інтелекту світового класу. Поєднуючи спеціально побудовані об'єкти, оптимізовані процеси закупівель та партнерство зі спеціалізованими командами з розгортання, проект демонструє, що інфраструктурні виклики епохи ШІ, хоч і є грандіозними, але далеко не нездоланними. Для тих, хто готовий інвестувати в потрібну експертизу та партнерства, шлях від амбіцій до операційних суперкомп'ютерних обчислень ШІ ще ніколи не був таким простим.
Університети, підприємства та уряди в усьому світі розглядають можливість інвестування в інфраструктуру штучного інтелекту. Isambard-AI є доказом того, що з правильним підходом і правильними партнерами навіть найамбітніші розгортання графічних процесорів можуть перейти від пропозиції до виробництва зі швидкістю інновацій. Питання більше не в тому, чи будувати інфраструктуру ШІ, а в тому, чи є у вас доступ до спеціалізованої експертизи, необхідної для того, щоб зробити це правильно.
Посилання
Alliance Chemical. "Революція в охолодженні графічних процесорів штучного інтелекту: Деіонізована вода, етиленгліколь та пропілен". Alliance Chemical. Доступно 1 серпня 2025 року. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.
Комп'ютерний тижневик. "Брістоль запускає британський суперкомп'ютер зі штучним інтелектом". Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.
Комп'ютерний тижневик. "Уряд Великобританії обіцяє виділити 225 млн фунтів стерлінгів на будівництво суперкомп'ютера зі штучним інтелектом Брістольського університету спільно з HPE". Computer Weekly, листопад 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.
Знання про ЦОД. "Рідинне охолодження безпосередньо на чіп: Оптимізація ефективності ЦОД". Data Center Knowledge. Доступно 1 серпня 2025 року. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.
Спільне підприємство EuroHPC. "Інавгурація MareNostrum 5: Європа вітає новий суперкомп'ютер світового класу". 21 грудня 2023 року. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.
Спільне підприємство EuroHPC. "MareNostrum5: новий суперкомп'ютер світового класу EuroHPC в Іспанії". 16 червня 2022 року. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.
Дослідницький центр Юліха. "Технічний огляд JUPITER". Доступно 1 серпня 2025 року. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.
GOV.UK. "Можливість запуску суверенного ШІ AIRR: заклик до дослідників". Доступно 1 серпня 2025 року. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.
Hewlett-Packard Enterprise. "Уряд Великої Британії інвестує 225 млн фунтів стерлінгів у створення найпотужнішого у Великій Британії суперкомп'ютера зі штучним інтелектом спільно з Брістольським університетом та Hewlett Packard Enterprise". Прес-реліз, листопад 2023 року. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.
HPCwire. "Університет Брістоля розмістить суперкомп'ютер Isambard-AI, що знаменує собою нову еру в галузі ШІ та високопродуктивних обчислень". HPCwire. Доступно 1 серпня 2025 року. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.
Гіперстек. "Все про графічні процесори NVIDIA Blackwell: Архітектура, особливості, характеристики чіпів". Доступно 1 серпня 2025 року. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.
IBM. "Інтрол Солюшнс, ЛТД". Довідник IBM PartnerPlus. Доступно 1 серпня 2025 року. https://www.ibm.com/partnerplus/directory/company/9695.
Інтрол. "Розгортання інфраструктури графічних процесорів | Оптимізація розгортання графічних процесорів". Доступно 1 серпня 2025 року. https://introl.com/gpu-infrastructure-deployments.
Інтрол. "Introl - експерти з розгортання GPU-інфраструктури та центрів обробки даних". Доступно 1 серпня 2025 року. https://introl.com.
Інтрол. "Introl | Інфраструктура GPU, рішення для центрів обробки даних та розгортання HPC". Доступно 1 серпня 2025 року. https://introl.com/blog.
IT Pro. "Всередині Isambard-AI: найпотужніший суперкомп'ютер Великобританії". IT Pro. Доступно 1 серпня 2025 року. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.
IT4Innovations. "LUMI." Доступно 1 серпня 2025 року. https://www.it4i.cz/en/infrastructure/lumi.
Jetcool. "Що таке пряме рідинне охолодження для центрів обробки даних зі штучним інтелектом?" Доступно 1 серпня 2025 року. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.
NVIDIA. "NVLink та NVSwitch для вдосконаленого зв'язку між декількома графічними процесорами". Доступно 1 серпня 2025 року. https://www.nvidia.com/en-us/data-center/nvlink/.
NVIDIA. "Двигун, що стоїть за фабриками штучного інтелекту | Архітектура NVIDIA Blackwell". Доступно 1 серпня 2025 року. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.
Блог NVIDIA. "Платформа NVIDIA Blackwell підвищує ефективність використання води у понад 300 разів". Доступно 1 серпня 2025 року. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.
ResearchGate. "Isambard-AI: суперкомп'ютер лідерського класу, оптимізований спеціально для штучного інтелекту". Жовтень 2024 року. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.
SDxCentral. "Британський суперкомп'ютер Isambard-AI вартістю 300 мільйонів доларів офіційно запущений". SDxCentral. Доступно 1 серпня 2025 року. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.
TechTarget. "Момент рідинного охолодження настає завдяки штучному інтелекту". TechTarget. Доступно 1 серпня 2025 року. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.
"Інженер". "У Брістолі запустили суперкомп'ютер зі штучним інтелектом Isambard". The Engineer. Доступно 1 серпня 2025 року. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.
Дослідження та інновації Великобританії. "300 мільйонів фунтів стерлінгів на запуск першої фази нового дослідницького ресурсу зі штучного інтелекту". Доступно 1 серпня 2025 року. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.
Брістольський університет. "2023: Ізамбард А.І. Брістоль". Інститут навколишнього середовища Кабота. Доступно 1 серпня 2025 року. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.
Брістольський університет. "Липень: Найпотужніший суперкомп'ютер Великої Британії запускається в Брістолі". Новини та статті, липень 2025 року. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.
Брістольський університет. "Листопад: Безпрецедентні інвестиції у розмірі 225 млн фунтів стерлінгів для створення найпотужнішого суперкомп'ютера у Великій Британії". Новини та статті, листопад 2023 року. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.
Вікіпедія. "Блеквелл (мікроархітектура)". Доступно 1 серпня 2025 року. https://en.wikipedia.org/wiki/Blackwell_(мікроархітектура).
Вікіпедія. "LUMI." Доступно 1 серпня 2025 року. https://en.wikipedia.org/wiki/LUMI.
"Isambard-AI: суперкомп'ютер лідерського класу, оптимізований спеціально для штучного інтелекту". arXiv препринт arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.