Grok 4 щойно розбив стелю ШІ - ось чому це все змінює

1 серпня

Представляємо Grok 4 - найпотужнішу у світі модель штучного інтелекту. Дивіться пряму трансляцію прямо зараз: https://t.co/59iDX5s2ck
- xAI (@xai) 10 липня 2025 року

Що ж, ситуація швидко загострилася. Три тижні тому Ілон Маск і xAI скинули Grok 4 на світ, який нічого не підозрював, і його результати продовжують змушувати досвідчених дослідників ШІ робити подвійні дублі. Уявіть собі ШІ, який міркує над проблемами так само, як команда докторів наук, що о третій годині ночі займається мозковим штурмом під впливом кофеїну. Тепер, коли початковий ажіотаж вщух і розробники випробували Grok 4, дозвольте мені розповісти вам, чому ця модель являє собою більше, ніж просто чергову версію - це погляд у майбутнє, де ШІ стане справжнім інтелектуальним партнером.

https://x.com/xai/status/1943158495588815072

Запуск, який зламав Інтернет (і деякі рекорди)

xAI представила Grok 4 9 липня 2025 року в прямому ефірі, який зібрав 1,5 мільйона глядачів - непогано для технічної презентації вночі.¹ Час був... цікавим, адже це сталося лише через день після того, як Grok 3 потрапив у заголовки газет з усіх можливих причин з деякими суперечливими результатами.² Але xAI вирішила, що найкращий захист - це переважаючий напад.

Маск представив два варіанти: стандартний Grok 4 і Grok 4 Heavy, в останньому використовується кілька агентів штучного інтелекту, які перевіряють роботу один одного, як у навчальній групі, де всі читають.³ Доступ здійснюється через додаток Grok, веб-сайт або API, причому Heavy є ексклюзивним для передплатників SuperGrok Heavy за ціною $300 на місяць - ціна, яка говорить "ми серйозно ставимося до цього".⁴ Для допитливих: https://x.ai/grok для загального доступу, https://x.ai/api для розробників.

Функції, які роблять інші АІ схожими на калькулятори

Grok 4 має контекстне вікно на 256 000 лексем (це приблизно роман, який він може обробити за один раз), аналіз зображень, виклик функцій і голосові режими, настільки природні, що ви можете забути, що розмовляєте з кремнієм.⁵ Але ось де все стає пікантним: використання нативних інструментів. xAI навчив цього звіра за допомогою навчання з підкріпленням володіти інтерпретатором коду і веб-браузером, подібними до його розуму розширеннями.

Пошук у реальному часі в X, Інтернеті та новинах забезпечує свіжість відповідей - більше ніяких відмовок на кшталт "мої знання обмежені". Мультимодальні можливості дозволяють легко поєднувати текстовий і візуальний аналіз, а голосовий режим додає аналіз сцени за допомогою камери.⁶ Для працівників підприємств, які піклуються про відповідність вимогам: SOC 2, тип 2, GDPR та CCPA - все це вже відмічено галочками. Це як мати дотепного наукового співробітника, який ніколи не спить, не скаржиться на понаднормову роботу і розуміє ваш жахливий почерк.

Секретний соус: Коли груба сила зустрічається з витонченістю

За магією Grok 4 стоїть суперкомп'ютер xAI Colossus - монстр з 200 000 графічних процесорів, який робить більшість дата-центрів схожими на кишенькові калькулятори.⁷ Але сира потужність не розповідає всієї історії. xAI революціонізувала свій підхід, масштабуючи навчання з підкріпленням до рівня попередніх обчислень, зосередившись на перевірених даних з математики, кодування та наукових областей, що підвищило ефективність у 6 разів, перетворивши обчислювальні м'язи на витончений інтелект.⁸

Справжня інновація? Вони витратили стільки ж на навчання з підкріпленням після тренування, скільки і на саме навчання.⁹ Grok 4 Heavy розвиває цей підхід, використовуючи паралельні обчислення під час тестування - кілька агентів ШІ вирішують проблеми одночасно, перш ніж порівняти результати. Уявіть, що ви перетворилися з винахідника-одинака в гаражі на синхронізований оркестр нобелівських лауреатів, кожен з яких перевіряє роботу інших.

Перевірка реальності інфраструктури

Суперкомп'ютер Colossus має 200 000 графічних процесорів, що просто... Я навіть не можу вкластися в цю цифру. Більшість компаній радіють, коли отримують кластер з кількома сотнями графічних процесорів, які працюють без збоїв. Але 200 000? Одного лише тепловиділення достатньо, щоб запустити невелику електростанцію.

І це ще до того, як ви подумаєте про те, як їх правильно підключити, як забезпечити передачу даних, як переконатися, що ваша електромережа не вимкнеться..... Кожна деталь має значення: як ви розташуєте стійки, який тип охолодження ви використовуєте (і так, вам потрібне серйозне охолодження, тому що ці речі нагріваються), а також всі кошмари, пов'язані з мережею та розподілом електроенергії, які приходять разом з цим. Зіпсуйте будь-яку частину цього пазла, і ви витратите гроші на неефективне обладнання. Компаніям, які хочуть побудувати власну інфраструктуру ШІ, незалежно від того, чи це 10 графічних процесорів, чи 10 000 000, потрібна експертиза в усьому - від розподілу живлення до складних оптоволоконних з'єднань, які забезпечують передачу даних зі швидкістю світла. Саме тут професійне розгортання інфраструктури робить різницю між теоретичними специфікаціями та реальною продуктивністю. Команда Introl знає, що завдяки розгортанню незліченних кластерів штучного інтелекту диявол ховається в деталях - належна інфраструктура може означати різницю між графічними процесорами, що працюють з ефективністю 95%, і тими, що втрачають 30% своєї продуктивності на столі.

Цифри, які змушують статистиків плакати від радості

Давайте зануримося в бенчмарки, які так хвилюють АІ-спільноту. У сумнозвісному жорстокому тесті ARC-AGI-2, де моделі повинні продемонструвати абстрактні міркування на мінімальній кількості прикладів, Grok 4 (режим мислення) претендує на трон з результатом 15,9% за ціною близько $4 за завдання.¹⁰ Це майже вдвічі більше, ніж 8,6% у Claude Opus 4, і перш ніж ви будете насміхатися над "лише 15,9%", пам'ятайте, що більшість моделей з усіх сил намагаються подолати 5% у цьому тесті.¹¹ Це все одно, що спостерігати за тим, як хтось збирає кубики Рубіка із зав'язаними очима, в той час як усі решта все ще з'ясовують, який бік червоніє.

Експерименти з масштабуванням показують дещо цікаве. Використовуючи лише навчальні обчислення, Grok 4 досягає близько 50% на останньому іспиті людства (підмножина лише з текстом). Додайте інструменти, і результат підскочить до 50,7%.¹² Плато масштабування часу тестування близько 50%, доводячи, що більш інноваційні стратегії виведення - а не просто збільшення обчислень - призводять до проривів у вирішенні завдань.

На AIME25 (American Invitational Mathematics Examination) Grok 4 Heavy отримав ідеальні 100%, залишивши Claude 4 Opus (75,5%) і Gemini 2.5 Pro (88,0%) в пилюці.¹³ Навіть без інструментів стандартний Grok 4 набрав 91,7% - це краще, ніж більшість учасників олімпіади з математики, що проводяться серед людей.

А ось і фінал: Останній іспит людства (повний комплект). Понад 2500 запитань з STEM та гуманітарних наук відокремлюють запам'ятовування від справжніх міркувань. Grok 4 Heavy набрав 44,4%, майже подвоївши Gemini 2.5 Pro's 25,4% і більш ніж подвоївши o3's 21,0%. Коли ваш ШІ випереджає інших з такою різницею, ви не просто повторюєтесь - ви робите революцію.

Реальна продуктивність, яка має значення

Окрім академічних тестів, Grok 4 домінує в практичних випробуваннях. У тесті Vending-Bench (так, це справжній бенчмарк з оптимізації роботи торгових автоматів) він досягає чистої вартості $4 694 при продажі 4 569 одиниць - більш ніж удвічі більше, ніж у Клода Опус 4 ($2 077) і в п'ять разів більше, ніж людська продуктивність на рівні $844.¹⁶.

Додаткові перемоги: USAMO'25 (61,9%), GPQA Diamond (88%), LiveCodeBench (79,4%) та MMLU-Pro (87%).¹⁷ Незалежні оцінювачі з Artificial Analysis визнали Grok 4 переможцем, набравши 73 бали за Індексом інтелекту, випередивши o3 від OpenAI та Gemini 2.5 Pro від Google (обидва - 70).¹⁸ Непогано для моделі, яка з'явилася всього три тижні тому.

Вердикт громади: захоплення, скептицизм і все, що між ними

З моменту запуску X (колишній Twitter) став випробувальним майданчиком для можливостей Grok 4. Розробники повідомляють, що вставляють цілі кодові бази для налагодження, і результати перевершують спеціалізовані інструменти, такі як Cursor.²⁹ Один користувач назвав її "найближчою річчю до AGI", а вчені запитують про невирішені проблеми з матеріалами і отримують нові ідеї, які підтверджуються.²⁰ Після трьох тижнів використання в реальному світі з'явилися закономірності: модель чудово справляється зі складними завданнями на міркування, але демонструє цікаві примхи у творчих додатках.

Але це не всі овації. Користувачі відзначають обмеження швидкості на рівні 75 токенів на секунду (пристойно, але не блискавично), а модерація контенту залишається мінімальною - Grok 4 менше фільтрує, ніж конкуренти, що викликає дебати про нейтральність ШІ та безпеку.²¹ Деякі цінують сирі, неприкрашені відповіді; інші турбуються про потенційне зловживання. Демократія в дії, друзі.

Що це означає для завтрашнього дня (Спойлер: все змінюється)

І тут мій оптимізм зашкалює. Grok 4 виходить за рамки категорії чат-ботів - це прев'ю ШІ як інтелектуального партнера. Коли штучний інтелект отримує ступінь доктора філософії на математичних олімпіадах і допомагає вченим досліджувати нерозв'язані проблеми, ми стаємо свідками світанку доповнених відкриттів.

Для науки: Уявіть, що дослідники з усього світу мають доступ до ШІ, який дійсно розуміє складну математику і може запропонувати нові гіпотези. Відкриття ліків, моделювання клімату та матеріалознавство - все це прискорюється.

Для інженерів: Окрім налагодження, ми говоримо про ШІ, який розуміє архітектуру системи і може запропонувати оптимізацію, про яку людина ніколи б не подумала. Це як мати Дейкстру і Тюрінга на швидкому наборі.

Для освіти: Персоналізоване навчання, яке адаптується не лише до того, що студенти роблять неправильно, але й до того, як вони мислять. Кожен учень отримує терплячого, блискучого наставника, пристосованого до його когнітивного стилю.

Для бізнесу: Від стратегічного планування до аналізу ринку, можливості міркувань Grok 4 можуть трансформувати процес прийняття рішень від інтуїтивних відчуттів до заснованих на даних інсайтів з глибоким розумінням нюансів.

Застереження (тому що чесність перемагає хайп)

Давайте будемо реалістами - жоден ШІ не є досконалим, і Grok 4 має куди рости. Швидкість 75 токенів на секунду не дозволить виграти перегони зі спеціалізованими серверами висновків. Галюцинації, хоча і зменшилися, але не зникли повністю (це проблема всієї індустрії). Мінімальна фільтрація контенту викликає обґрунтоване занепокоєння щодо можливості зловживань.

Послухайте, xAI нічого не розповіли нам про свої навчальні дані, і це... не дуже добре. Ми всі знаємо, як це відбувається - упередженість даних посилюється, коли ви масштабуєте їх до таких розмірів. Зараз усі в галузі ШІ стежать за xAI, як яструби. Як вони впораються з етичними питаннями, коли Grok 4 пошириться? Це матиме велике значення.

Дорога попереду: Речі стають дивними

Під час презентації xAI показали деякі зі своїх планів, і одне з них мене просто вразило. Вони згадали про підключення Grok до програмного забезпечення обчислювальної гідродинаміки Tesla - тієї самої CFD, яку інженери Tesla використовують для аеродинаміки та терморегулювання на реальних автомобілях.²²

Мені довелося посидіти з цим хвилину. Ми звикли до штучного інтелекту, який знає факти, відповідає на питання і пише код. Але інтеграція CFD - це дещо інше. Одна справа, коли штучний інтелект може пояснити, як працює гідродинаміка. Зовсім інша справа, коли цей ШІ може використовувати програмне забезпечення CFD для проектування речей, які рухаються в повітрі і розсіюють тепло. Це не поступовий прогрес - це абсолютно нова можливість.

OpenAI, Anthropic та Google не збираються стояти осторонь. Але Grok 4 змінив правила гри - ми перейшли від ролі "корисного помічника" до ролі "партнера, що міркує". Ця зміна нагадує мені те, про що говорив Рей Курцвейл про вибух інтелекту - кожен прорив робить наступний все швидшим і швидшим. Ми спостерігаємо, як це відбувається в режимі реального часу.

Твоя черга: Що ти побудуєш?

Тож я подумав: що станеться, коли ШІ зможе міркувати на рівні доктора філософії у всіх сферах? Які проблеми, що здавалися неможливими, раптом широко розкриються? Що ми відкриваємо, коли наші інструменти можуть думати разом з нами? І, чесно кажучи, які бар'єри нам потрібно встановити, коли ШІ стане настільки розумним?

Якщо ви розробник, ви вже плануєте, що створювати за допомогою цих API. Дослідники, напевно, вже в захваті від того, що з'явилося в цих API. І якщо ви сидите тут і думаєте: "Що взагалі означають можливості Grok 4?" - так, я розумію. Концепція потребує часу на осмислення.

Але ось у чому річ: Grok 4 приземлився у нас на колінах, незалежно від того, готові ми до цього чи ні. Штучний інтелект просто сказав: "Ось, що зараз можливо, а ви думайте, що з цим робити".

Отже... що ви збираєтеся з ним робити? API Grok знаходиться за адресою https://x.ai/apiІснує ціла спільнота на X, де розробники та дослідники вже розширюють межі можливостей. Через три тижні ми бачимо додатки, які ніхто не міг передбачити на старті. Можливості тут величезні - давайте не будемо їх втрачати.

Посилання

Скотт Розенберг, "Elon Musk's xAI дебютує Grok 4, "найрозумніший ШІ у світі", Axios, 10 липня 2025 року, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"Ілон Маск представив оновлення Grok 4 через день після того, як чат-бот xAI зробив антисемітські висловлювання", CBS News, 10 липня 2025 року, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musk's xAI запускає Grok 4 разом із щомісячною підпискою на 300 доларів", TechCrunch, 9 липня 2025 року, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"Компанія Ілона Маска xAI запускає Grok 4 разом із щомісячною підпискою на 300 доларів", TechCrunch.
xAI, "Grok 4 Release Announcement", презентація в прямому ефірі, 9 липня 2025 року.
xAI, "Grok 4 Release Announcement."
"Реліз Grok 4: xAI претендує на корону №1 серед моделей штучного інтелекту в незалежному тестуванні", Gear Musk, 10 липня 2025 року, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Grok 4 Release Announcement."
"Grok-4 Маска розбиває бенчмарки, перемагає OpenAI та Google в RL", Analytics India Magazine, 10 липня 2025 року, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"Премія ARC", X (раніше Twitter), 10 липня 2025 року, https://twitter.com/arcprize/status/[specific-id].
Франсуа Шолле, "ARC-AGI: Нова межа в міркуваннях ШІ", Організація премії ARC, 2025.
xAI, "Grok 4 Release Announcement."
"ШІ-моделі Grok 4 від Elon Musk встановили нові рекорди", Beebom, 10 липня 2025 року, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI встановлює рекорди в галузі ШІ з новою моделлю Grok 4, оптимізованою для міркувань", SiliconANGLE, 10 липня 2025 року, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Grok 4 Release Announcement."
xAI, "Grok 4 Release Announcement."
xAI, "Grok 4 Release Announcement."
"Порівняння моделей ШІ за показниками інтелекту, продуктивності, ціни", Artificial Analysis, доступний 11 липня 2025 року, https://artificialanalysis.ai/models.
Відгуки користувачів, X (раніше Twitter), 10-11 липня 2025 року.
Відгуки користувачів, X (раніше Twitter), 10-11 липня 2025 року.
"Що нового в Grok 4? Факти про випуск, бенчмарки та цінність", SmythOS, 10 липня 2025 року, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Grok 4 Release Announcement."

Блейк Крослі