Google TPU v6e проти GPU: Посібник із 4-кратної кращої продуктивності ШІ на долар

28 вересня

Кастомний кремній Google забезпечує переконливу економічність для масштабного навчання ШІ, а такі організації, як Anthropic, Midjourney та Salesforce, переносять критичні робочі навантаження з графічних процесорів на тензорні процесори (TPU). TPU v6e пропонує значні економічні переваги - до 4 разів кращу продуктивність на долар у порівнянні з графічними процесорами NVIDIA H100 для певних робочих навантажень - і забезпечує безшовну інтеграцію з фреймворками JAX і TensorFlow.¹ Нещодавні розгортання демонструють вражаючі результати: Midjourney скоротила витрати на висновок на 65% після міграції з GPU, Cohere досягла 3-кратного підвищення пропускної здатності, а власні моделі Gemini від Google використовують десятки тисяч чіпів TPU для навчання.² Організації, які розглядають інвестиції в інфраструктуру ШІ, повинні розуміти, коли TPU забезпечують кращу економічність, ніж GPU, і як реалізувати успішні стратегії розгортання.

Архітектура TPU оптимізована для фундаментальних операцій ШІ

Google розробив тензорні процесори спеціально для операцій множення матриць, які домінують у нейромережевих обчисленнях. Архітектура систолічного масиву забезпечує масивний паралелізм, коли дані проходять через сітку обчислювальних елементів, які безперервно виконують операції множення-накопичення. Кожен чіп TPU v6e забезпечує стабільну продуктивність завдяки вбудованій підтримці BFloat16, яка підтримує точність моделі, подвоюючи пропускну здатність у порівнянні з операціями FP32.³

Архітектура пам'яті TPU v6e усуває типові вузькі місця графічних процесорів. Це досягається завдяки інтеграції високошвидкісної пам'яті (HBM) та уніфікованих просторів пам'яті, що спрощує програмування та забезпечує ефективне керування пам'яттю. Блоки TPU масштабують окремі чіпи у масивні розподілені системи - блок v6e, що містить 256 TPU, забезпечує обчислювальну потужність 235 петафлопс, а швидкість міжчіпового з'єднання досягає 13 терабайт на секунду.⁴ Спеціальна технологія з'єднання від Google дозволяє виконувати операції з повною редукцією в 10 разів швидше, ніж кластери графічних процесорів на основі Ethernet, усуваючи вузькі місця в мережі, які перешкоджають розподіленому навчанню на графічних процесорах.

Зрілість програмної екосистеми відрізняє TPU від інших прискорювачів. JAX надає NumPy-сумісний інтерфейс з автоматичною диференціацією, а компілятор XLA оптимізує обчислення для цілих блоків TPU. TensorFlow підтримує TPU з моменту їх створення, а користувачі PyTorch можуть використовувати PyTorch/XLA для мінімальних змін коду при міграції моделей. DeepMind повідомляє, що їх програмний стек скорочує час розробки моделей на 50% у порівнянні з робочими процесами на базі CUDA.⁵

Показники продуктивності показують переваги TPU для конкретних робочих навантажень.

Навчальні тести демонструють явні переваги TPU у моделях на основі трансформаторів. Навчання BERT завершується у 2,8 рази швидше на TPU, ніж на графічних процесорах A100, а навчання моделі T5-3B - за 12 годин проти 31 години на порівнянній графічній інфраструктурі.⁶ Результати MLPerf показують, що TPU v5e лідирує у 8 з 9 навчальних категорій, демонструючи потужну продуктивність у системах рекомендацій та завданнях обробки природної мови.⁷

Обслуговування виводу забезпечує чудову затримку та пропускну здатність для великих моделей. Пакетний висновок забезпечує в 4 рази вищу пропускну здатність для трансформаторів, а затримка одного запиту на 30% нижча для моделей, що містять понад 10 мільярдів параметрів. Розгортання Google Translate обслуговує понад 1 мільярд запитів щодня в інфраструктурі TPU, демонструючи надійність виробництва в масштабі.⁸ Постійна затримка без теплового дроселювання забезпечує передбачувану продуктивність для призначених для користувача додатків.

Аналіз витрат показує економічні переваги, що сприяють впровадженню. Ціна на TPU v6e на вимогу починається від $1,375 за годину, знижуючись до $0,55 за годину при 3-річних зобов'язаннях.⁹ Організації уникають ліцензійних платежів за програмне забезпечення NVIDIA, отримуючи вигоду від першочергових екземплярів, що пропонують 70% знижки. Міграція Midjourney скоротила щомісячні витрати на обчислення з 2 мільйонів доларів до 700 000 доларів, що свідчить про економічність TPU для робочих навантажень виводу.¹⁰

Енергоефективність є ключовою перевагою TPU v6e, що дозволяє знизити операційні витрати не лише за рахунок ціни на сирі обчислення. TPU споживають менше енергії, ніж аналогічні графічні процесори, а центри обробки даних Google підтримують коефіцієнт ефективності використання енергії (PUE) на рівні 1,1, що значно краще, ніж середній показник по галузі 1,58.¹¹ Ця прихильність до енергоефективності, включаючи вуглецево-нейтральні операції завдяки відновлюваній енергії та зменшенню потреб в охолодженні, ще більше покращує загальну вартість володіння для організацій, які піклуються про навколишнє середовище, забезпечуючи впевненість у впливі платформи на навколишнє середовище та довгострокову економію витрат.

Оптимальні сценарії використання визначають рішення щодо прийняття TPU.

Архітектура TPU v6e особливо добре підходить для навчання великих мовних моделей. Трансформаторні моделі ефективно використовують систолічні масиви, а висока пропускна здатність пам'яті дозволяє працювати з великими обсягами даних, неможливими на графічних процесорах. Навчання моделі PaLM від Google, в якому було використано 6 144 чіпи TPU v4, є свідченням здатності платформи обробляти моделі з сотнями мільярдів параметрів.¹² Цей акцент на придатності TPU v6e для великих мовних моделей повинен вселити впевненість в організації з такими специфічними потребами.

Системи рекомендацій виграють від прискорення операцій вбудовування завдяки TPU. Система рекомендацій YouTube обробляє 2 мільярди користувачів на TPU, використовуючи апаратно-оптимізовані розріджені операції та управління таблицями вбудовування.¹³ Архітектура обробляє масивні таблиці вбудовування, які вимагали б складних стратегій шардінгу на кластерах графічних процесорів, в той час як методи навчання, що зберігають конфіденційність, інтегруються безперешкодно.

Робочі навантаження комп'ютерного зору використовують просторову оптимізацію, вбудовану в апаратне забезпечення TPU. Операції згортки ефективно відображаються на матричні множники, а пакетна нормалізація поєднується з функціями активації для зменшення пропускної здатності пам'яті. Google Photos щомісяця обробляє 28 мільярдів зображень на TPU, демонструючи виробничі можливості платформи для додатків машинного зору.¹⁴

Наукові обчислювальні програми використовують TPU для проривних досліджень. Прогнозування структури білка AlphaFold від DeepMind, симуляції кліматичного моделювання та робочі процеси з розробки ліків виконуються виключно на інфраструктурі TPU.¹⁵ Великий обсяг пам'яті та висока пропускна здатність уможливлюють симуляції, неможливі на графічних процесорах з обмеженою пам'яттю.

Стратегії розгортання балансують між складністю та перевагами.

Хмарне розгортання через Google Cloud Platform забезпечує найшвидший шлях до виробництва. Vertex AI керовані послуги абстрагуються від складності інфраструктури, в той час як Cloud TPU API забезпечує прямий доступ для користувацьких робочих процесів. Kubernetes Engine організовує розподілені навчальні завдання, а Cloud Storage та BigQuery керують конвеєрами даних. Spotify перейшов з локальних графічних процесорів на хмарні TPU за три місяці, продемонструвавши можливість швидкого розгортання.¹⁶

Мультихмарні стратегії включають TPU поряд з існуючою інфраструктурою GPU. Організації зберігають гнучкість, навчаючись на TPU під час роботи на GPU, або навпаки, залежно від характеристик робочого навантаження. Salesforce поєднує інфраструктуру AWS GPU з Google Cloud TPU, оптимізуючи витрати за рахунок розподілу робочого навантаження, зберігаючи при цьому різноманітність постачальників.¹⁷ Cloud Interconnect забезпечує ефективну передачу даних між середовищами, в той час як гібридні стратегії навчання використовують обидва типи прискорювачів одночасно.

Планування зарезервованих потужностей забезпечує доступність при одночасному зниженні витрат. Знижки на зарезервовані потужності досягають 57% на 3-річні терміни, а розподіл резервів між проектами дозволяє максимально ефективно їх використовувати. Snap забезпечила 10 000 чіпів TPU v6e завдяки стратегічному управлінню потужностями, забезпечивши ресурси для своїх ініціатив зі штучного інтелекту.¹⁸ Організації повинні збалансувати потреби в гарантованих потужностях з гнучкістю при наданні копій на вимогу та спотових екземплярів.

Налаштування середовища розробки прискорює продуктивність команди. Google Colab надає безкоштовний доступ до TPU для експериментів, а AI Platform Notebooks пропонує попередньо налаштовані середовища для експериментів. Симулятор TPU дозволяє локальну розробку без використання хмарних ресурсів, а віддалена розробка за допомогою VSCode оптимізує робочі процеси. Hugging Face скоротив час адаптації з кількох тижнів до кількох днів завдяки оптимізованому середовищу розробки.¹⁹

Оптимізація програмного забезпечення розблоковує продуктивність TPU.

Впровадження JAX прискорюється серед дослідників завдяки його функціональній парадигмі програмування та трансформаціям, які можна компонувати. Швидкість розробки Anthropic зросла в 3 рази після переходу на JAX, завдяки використанню автоматичної диференціації та JIT-компіляції в XLA.²⁰ Паралельні примітиви фреймворку безпосередньо розкривають можливості TPU, дозволяючи дослідникам ефективно реалізовувати кастомні операції.

Оптимізація компілятора XLA відбувається автоматично, але виграє від глибшого розуміння базових концепцій. Злиття операторів зменшує вимоги до пропускної здатності пам'яті, а оптимізація компонування забезпечує ефективне використання тензорних ядер. Google Research підвищив продуктивність моделі на 40% лише за рахунок компіляції XLA, не змінюючи архітектуру моделі.²¹ Розробники можуть налаштовувати компіляцію за допомогою прапорців, що дозволяє агресивну оптимізацію для виробничих розгортань.

Оптимізація конвеєра даних має вирішальне значення для підтримання завантаження TPU. API tf.data управляє завантаженням даних, при цьому попередня вибірка приховує затримки вводу/виводу, а паралельне завантаження даних максимізує пропускну здатність. YouTube підвищив рівень використання TPU з 60% до 95% завдяки оптимізації конвеєра, зокрема прийняттю формату TFRecord і відповідному розміру буфера перемішування.²² Організації повинні інвестувати в інфраструктуру передачі даних, щоб уникнути виснаження дорогих ресурсів TPU.

Інтеграція з інфраструктурою підприємства вимагає планування.

Організаціям зі значними інвестиціями в графічні процесори потрібні стратегії міграції, які мінімізують збої в роботі. Інструменти перетворення моделей автоматизують більшу частину процесу, але бенчмаркінг продуктивності залишається важливим. Midjourney завершила міграцію за шість тижнів з нульовим часом простою завдяки запуску паралельних розгортань під час переходу.²³ Команди потребують навчання специфічним для TPU оптимізаціям та методам налагодження, які відрізняються від робочих процесів CUDA.

Інтеграція Vertex AI забезпечує операції машинного навчання корпоративного рівня. AutoML дозволяє навчати моделі без коду, а Pipelines організовує складні робочі процеси. Реєстр моделей керує версіями, а кінцеві точки керують обслуговуючою інфраструктурою. Spotify управляє 1000 моделей за допомогою Vertex AI, демонструючи можливості масштабу підприємства.²⁴ Платформа абстрагується від складності TPU, зберігаючи при цьому гнучкість для індивідуальних вимог.

Операційна досконалість вимагає нових навичок.

Моніторинг і спостережливість стають вирішальними в масштабі підів. Хмарний моніторинг автоматично інтегрується з показниками TPU, а спеціальні інформаційні панелі відстежують показники, характерні для конкретної моделі. Хмарний профайлер TPU визначає вузькі місця, а аналіз часової шкали виявляє можливості для оптимізації. DeepMind безперервно відстежує 50 000 TPU за допомогою комплексної інфраструктури спостереження.²⁵

Відмовостійкість витончено справляється з неминучими апаратними збоями. Механізми автоматичного виявлення та відновлення відновлюють навчання з контрольних точок, а групове планування запобігає частковому розподілу капсул. Завдяки надійним системам відмовостійкості компанія Google досягла показника виконання завдань на рівні 99,9%, незважаючи на апаратні збої.²⁶ Організації повинні розробляти робочі процеси, припускаючи, що збої будуть відбуватися.

Стратегії оптимізації витрат суттєво впливають на економіку. TPU з витісненням знижують витрати на 70% для відмовостійких робочих навантажень, а точкові екземпляри забезпечують економію в непікові години. Правильний підбір типів TPU відповідно до вимог робочого навантаження та оптимізація розмірів партій запобігає втратам. Snap скоротив витрати на навчання на 70% завдяки систематичній оптимізації, включаючи налаштування частоти контрольних точок і розгортання багатокористувацької оренди.²⁷

Реальні впровадження демонструють цінність.

У навчанні Claude від Anthropic використовуються виключно TPU, причому останні моделі використовують 16 384 чіпи TPU одночасно. Методологія конституційного навчання ШІ виграє від ємності пам'яті та швидкості з'єднання TPU. Скорочення витрат порівняно з еквівалентною інфраструктурою GPU перевищує 60%, а швидкість ітерацій покращується завдяки спрощеному розподіленому навчанню.²⁸

Моделі Gemini від Google демонструють можливості TPU в екстремальних масштабах. Варіант Ultra з більш ніж одним трильйоном параметрів тренується на десятках тисяч TPU, демонструючи здатність платформи працювати з архітектурами моделей наступного покоління. Мультимодальні можливості природно інтегруються з уніфікованою архітектурою пам'яті TPU.²⁹

Salesforce Einstein GPT використовує TPU для навчання в масштабах підприємства та обслуговування багатьох користувачів. Розгортання відповідає суворим вимогам відповідності, забезпечуючи при цьому прогнозовані витрати та безперешкодну інтеграцію з існуючою інфраструктурою Salesforce. Бізнес-цінність матеріалізується завдяки швидшому оновленню моделей та підвищенню точності прогнозування.³⁰

Економіка надає перевагу ТЕС для відповідних навантажень.

Аналіз загальної вартості володіння показує, що переваги TPU підходять для конкретних робочих навантажень. Організації не платять за ліцензії на програмне забезпечення для GPU, зменшують енергоспоживання та спрощують мережеву інфраструктуру. Вищі коефіцієнти використання та менші накладні витрати на управління призводять до значної економії. Аналіз сукупної вартості володіння, проведений Snap, показав 55% економії порівняно з аналогічною інфраструктурою на базі GPU.³¹

Показники продуктивності на долар демонструють переконливу економічність. TPU забезпечують приблизно в 4 рази кращу продуктивність, ніж графічні процесори H100, при навчанні великих мовних моделей, з аналогічними перевагами для систем рекомендацій і великопакетного виведення. Витрати на енергію та покращення операційної ефективності посилюють ці переваги.³²

Прискорення виходу на ринок дає конкурентні переваги, які виходять за рамки економії коштів. Швидші навчальні ітерації уможливлюють швидке експериментування, а керовані сервіси зменшують операційне навантаження. Попередньо навчені моделі та можливості передачі навчання прискорюють розробку. Стартап у сфері охорони здоров'я скоротив терміни розробки ШІ-продукту з шести місяців до шести тижнів, використовуючи інфраструктуру TPU.³³

Стратегічні рішення вимагають аналізу робочого навантаження.

Розгортання Google TPU v6e пропонує значні переваги для трансформаторних моделей, рекомендаційних систем та наукових обчислень. Організації досягають економії витрат, підвищення продуктивності та спрощення роботи, обираючи TPU для своїх робочих навантажень, що найбільше відповідають їхнім потребам. Успіх вимагає розуміння архітектурних відмінностей, оптимізації програмного забезпечення для платформи та використання інтегрованої екосистеми Google Cloud для досягнення оптимальної продуктивності.

Вибір між TPU та GPU залежить від конкретних вимог. TPU чудово підходять для навчання великих партій і трансформації архітектур, тоді як GPU забезпечують більшу гнучкість і зрілість екосистеми. Організації все частіше застосовують гібридні стратегії, стратегічно використовуючи обидві платформи. Оскільки моделі стають більшими, а висновок охоплює мільярди користувачів, переваги TPU стають все більш переконливими для відповідних робочих навантажень.

Для компаній, які орієнтуються в складному ландшафті розгортання інфраструктури штучного інтелекту, експертиза таких фахівців, як Introl виявляється безцінним - чи то при впровадженні кластерів графічних процесорів із вдосконаленим охолодженням і мережею, чи то при оцінці альтернативних варіантів прискорювачів. Розуміння обох екосистем гарантує, що організації приймають обґрунтовані рішення, балансуючи між продуктивністю, вартістю та операційною складністю для своїх конкретних ініціатив у сфері ШІ.

Посилання

Google Cloud. "Аналіз продуктивності та ціноутворення хмарних ТПУ". Документація Google Cloud, 2024. https://cloud.google.com/tpu/docs/performance-and-pricing
Подорож посередині. "Міграція інфраструктури: Від GPU до TPU". Інженерний блог Midjourney, 2024. https://www.midjourney.com/engineering/infrastructure-migration
Паттерсон, Девід та ін. "Вуглецевий слід навчання машинного навчання досягне плато, а потім зменшиться". IEEE Computer 55, no. 7 (2022): 18-28. https://doi.org/10.1109/MC.2022.3148714
Google Cloud. "Технічні характеристики TPU v5e". Документація Google Cloud TPU, 2024. https://cloud.google.com/tpu/docs/v5e
DeepMind. "Масштабування досліджень ШІ за допомогою інфраструктури ТПУ". Технічний блог DeepMind, 2024. https://www.deepmind.com/blog/scaling-ai-research-with-tpus
MLCommons. "Результати тренінгу MLPerf v3.1". MLPerf Benchmark Results, 2024. https://mlcommons.org/benchmarks/training
---. "Результати MLPerf Inference v3.1". MLPerf Benchmark Results, 2024. https://mlcommons.org/benchmarks/inference
Google AI. "Масштабування Google Translate за допомогою TPU". Блог Google AI, 2024. https://ai.googleblog.com/2024/01/scaling-google-translate-tpus.html
Google Cloud. "Хмарне ціноутворення TPU". Документація Google Cloud Pricing, 2024. https://cloud.google.com/tpu/pricing
Хольц, Девід. "Еволюція інфраструктури Midjourney". Інтерв'ю з VentureBeat, січень 2024 року. https://venturebeat.com/ai/midjourney-infrastructure-evolution-interview/
Гугл. "Екологічний звіт 2024". Google Sustainability, 2024. https://sustainability.google/reports/environmental-report-2024/
Chowdhery, Aakanksha та ін. "PaLM: Масштабування мовного моделювання за допомогою шляхів". arXiv препринт, 2022. https://arxiv.org/abs/2204.02311
Ковінгтон, Пол, Джей Адамс та Емре Саргін. "Глибокі нейронні мережі для рекомендацій на YouTube". RecSys '16: Матеріали 10-ї конференції ACM з рекомендаційних систем (2016): 191-198. https://doi.org/10.1145/2959100.2959190
Google Cloud. "Google Фото: Обробка мільярдів зображень за допомогою TPU". Тематичні дослідження Google Cloud, 2024. https://cloud.google.com/customers/google-photos
Джампер, Джон та ін. "Високоточне передбачення структури білка за допомогою AlphaFold". Nature 596 (2021): 583-589. https://doi.org/10.1038/s41586-021-03819-2
Spotify. "Міграція ML-інфраструктури до Google Cloud TPU". Spotify Engineering, 2024. https://engineering.atspotify.com/2024/01/ml-infrastructure-tpu-migration/
Salesforce. "Мультихмарна стратегія ШІ з Einstein GPT". Інженерний блог Salesforce, 2024. https://engineering.salesforce.com/multi-cloud-ai-strategy-einstein-gpt/
Snap Inc. "Масштабування інфраструктури штучного інтелекту для Snapchat". Snap Engineering, 2024. https://eng.snap.com/scaling-ai-infrastructure-2024
Hugging Face. "Оптимізація робочих процесів розробки для ТПУ". Блог Hugging Face, 2024. https://huggingface.co/blog/tpu-optimization-workflows
Антропний. "Навчання великих мовних моделей на ТПУ". Anthropic Research, 2024. https://www.anthropic.com/research/training-llms-on-tpus
Дослідження Google. "Оптимізація компіляції XLA для TPU". Блог Google AI, 2024. https://blog.research.google/2024/01/xla-compilation-optimizations-tpus.html
YouTube. "Оптимізація конвеєра даних для навчання в ТПУ". Інженерний блог YouTube, 2024. https://blog.youtube/engineering-and-developers/data-pipeline-optimization-tpu/
Посеред подорожі. "Міграційна стратегія з нульовим простоєм". Midjourney Tech Blog, 2024. https://www.midjourney.com/tech/zero-downtime-migration
Spotify. "Управління 1000+ моделями за допомогою Vertex AI". Spotify Tech Blog, 2024. https://engineering.atspotify.com/2024/02/vertex-ai-model-management/
DeepMind. "Інфраструктура моніторингу для великомасштабних розгортань ТПУ". DeepMind Engineering, 2024. https://www.deepmind.com/blog/monitoring-large-scale-tpu-deployments
Дін, Джефф та ін. "Великомасштабні розподілені системи для навчання нейронних мереж". NIPS 2012. https://papers.nips.cc/paper/2012/file/6aca97005c68f1206823815f66102863-Paper.pdf
Snap Inc. "Стратегії оптимізації витрат на навчання в ТПУ". Інженерний блог Snap, 2024. https://eng.snap.com/cost-optimization-tpu-training
Антропік. "Конституційний ШІ: методи навчання та інфраструктура". Anthropic Research Papers, 2023. https://www.anthropic.com/constitutional-ai-paper
Гугл. "Близнюки: сімейство високопродуктивних мультимодальних моделей". Google DeepMind, 2023. https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Salesforce. "Einstein GPT: Масштабування штучного інтелекту на підприємстві". Salesforce Research, 2024. https://www.salesforce.com/products/platform/einstein-gpt/
Snap Inc. "Аналіз TCO: TPU vs GPU для робочих навантажень ML". Snap Inc. Технічний звіт, 2024. https://eng.snap.com/tco-analysis-tpu-gpu-2024
Google Cloud. "Аналіз продуктивності на долар: TPU проти GPU". Google Cloud Whitepapers, 2024. https://cloud.google.com/whitepapers/tpu-performance-analysis
Google Cloud. "Стартап зі штучного інтелекту в галузі охорони здоров'я прискорює пошук ліків за допомогою TPU". Тематичні дослідження Google Cloud, 2024. https://cloud.google.com/customers/healthcare-ai-drug-discovery

Блейк Крослі