Компанията прогнозира победа 

Надпреварата на компаниите за изкуствен интелект може да е истинска конкуренция при чиповете за ускоряването му. Сега Intel представи първите архитектурни детайли на своя AI ускорител от трето поколение, Gaudi 3.

Компанията изтъкна колко близка е нейната производителност до най-добрия чип на Nvidia и демонстрира превъзходно съотношение на цена спрямо производителност. Насочва се към производителност на широкоезичен модел (LLM), където може да претендира за пълно превъзходство. На заден план се задава следващият GPU на Nvidia, Blackwell B200, който се очаква да пристигне по-късно тази година.

Архитектурата на Gaudi 3

Gaudi 3 удвоява архитектурата на своя предшественик Gaudi 2. Вместо единичен чип, Gaudi 3 се състои от две идентични силициеви матрици. Те са свързани чрез висока честотна лента. Всеки има централен регион от 48 мегабайта кеш памет. Работната сила на чипа е четири машини за умножение на матрици и 32 програмируеми единици, наречени тензорни процесорни ядра. Всичко това е заобиколено от връзки към паметта и е покрито с медийна обработка и мрежова инфраструктура.

Изброеното се комбинира, за да произведе двойно повече AI изчисления от Gaudi 2, използвайки 8-битова инфраструктура с плаваща запетая, която се очертава като ключова за обучение на трансформаторни модели. Също така се осигурява четирикратно увеличение за изчисления, използващи числовия формат BFloat 16.

LLM Performance

Intel предвижда 40% по-кратко време за обучение на големия езиков модел GPT-3 175B в сравнение с H100 и дори по-добри резултати за версиите на Llama2 със седем и осем милиарда параметри.

Новият чип осигурява от 95 до 170% от производителността на H100 за две версии на Llama. Срещу модела Falcon 180B, Gaudi 3 постигна четирикратно предимство. Не е изненадващо, че плюсовете бяха по-малко срещу Nvidia H200 – от 80 до 110% за Llama и 3,8x за Falcon.

Intel претендира за по-драматични резултати при измерване на енергийната ефективност, където проектира до 220% стойност на H100 за Llama и 230% за Falcon.

Gaudi 3 срещу Блекуел

Спекулация е да се сравняват ускорителите на този етап, но са налични големи разлики в паметта и честотната й лента. Тя винаги е била важна в AI тъй като популярните модели достигат десетки милиарди параметри по размер.

Gaudi 3 има повече HBM от H100, но по-малко от H200, B200 или MI300 на AMD. Честотната лента на паметта също е по-добра от H100. От значение за ценовата конкурентоспособност на Gaudi 3 е използването на по-евтиния HBM2e в сравнение с HBM3 или HBM3e.

Още параметри

Gaudi 3 е направен с помощта на технологичния процес N5 на TSMC. Новият чип използва същия процес като H100 и H200. Вместо да премине към 3-nm технология, конкурентът Blackwell се произвежда по процес, наречен N4P. TSMC описва N4P като принадлежащ към същата 5-nm фамилия като N5, но предоставящ 11% подобрение на производителността, 22% по-добра ефективност и 6% по-висока плътност.

Големият въпрос е, каква технология ще използва следващото поколение на Gaudi. Към момента продуктът разчита на TSMC. Следващата година Intel ще започне да предлага своята 18A технология на ключови клиенти и ще използва 20A вътрешно. На път е следващото поколение транзисторна технология. Това са нанопластове с едновременно захранване. Комбинацията не влиза в плановете на TSMC до 2026 г.