Какво ще се случи, когато вече не можем да изграждаме по-големи центрове за данни с ИИ?

Generative AI моделите не само експлодираха по популярност през последните две години, но също така се разраснаха с главоломна скорост, налагайки нуждата от все по-големи ускорители.

Без пробив в машинното обучение и мощността, която се превръща в ограничаващ фактор, продължаващият растеж на AI може в крайна сметка да зависи от нов вид суперкомпютър, който обхваща цели държави и потенциално дори континенти. Ако вече не е практично да изграждаме по-големи центрове за данни, трябва да започнем да съединяваме тези, които имаме.

Разпределянето на големи работни натоварвания между множество машини не е нищо ново във високопроизводителното изчислително пространство. По същество това е начинът, по който работи всеки модерен суперкомпютър.

Инфраструктура

В много отношения разпределянето на работни натоварвания в множество центрове за данни е разширение на съществуващ модел, макар и със собствен уникален набор от предизвикателства за преодоляване. До известна степен инфраструктурата, необходима за свързване на центрове за данни, вече съществува. Високоскоростните връзки за центрове за данни (DCI) не са нови и се използват широко от големите облачни доставчици.

За по-традиционни научни натоварвания, Nvidia, а преди нея Mellanox, предложиха своята линия от продукти MetroX. Те използват мултиплексиране с плътно разделяне на вълни, за да свържат InfiniBand изчислителни тъкани в множество центрове за данни на разстояние до 40 километра.

Вече се провеждат изследвания за разширяване на този обхват от десетки километри до хиляди. Това със сигурност би помогнало за справяне с предизвикателствата, свързани с мощността. Методът ще позволи на центровете за данни в различни региони да работят като едно цяло. При натоварванията на AI обаче и големите разстояния, свързани с това, носят свои собствени предизвикателства.

Балансиране на латентност и честотна лента

Като общо правило работните натоварвания на AI обичат честотната лента и мразят латентността. В рамките на центъра за данни голяма част от предизвикателствата се въртят около загубата на пакети или спирането на връзките, оставяйки изчисленията неактивни, докато данните се препредават. Според AMD средно 30 процента от времето за обучение се изразходва в изчакване мрежата да навакса.

Разработени са множество технологии за преодоляване на тези ограничения. InfiniBand на Nvidia е един, но специализирани единици за обработка на данни и оптимизирани превключватели също се опитват да се справят с тези предизвикателства при работа с Ethernet.

Неизбежен факт 

Когато говорим за мрежи от център за данни към център за данни, латентността е неизбежен факт. Светлината се движи толкова бързо само през стъклени влакна, приблизително 4,9 микросекунди на километър. Обхват от над 1000 километра се равнява на почти 10 милисекунди двупосочно пътуване, преди да вземете предвид разходите за протокол и обработка. При тези видове обхвати препредаванията са много по-проблематични.

В зависимост от честотната лента и включените разстояния може да са необходими ретранслатори и усилватели за сигнала. Това може да влоши проблема.

Кои са те?

Една от тях е влакното с куха сърцевина. То трябва да помогне за ограничаване на закъсненията чрез намаляване броя на необходимите повторители. Недостатъкът на кухото ядро е, че все още е сравнително ново и вече има страшно много тъмни влакна в земята.

Латентността не е единственият проблем. Друг такъв е честотната лента. В рамките на центъра за данни мащабираните мрежи, използвани за свързване на GPU сървърите, обикновено включват осем 400Gbps връзки. Ако трябва да се опитате да разширите тази мащабирана мрежа през DCI, това ще изисква няколко петабита обща честотна лента. Модерната оптика, използвана в операторските мрежи, сега поддържа честотна лента до 1,6 Tbps дължина на вълната.

Много от тези предизвикателства в латентността и честотната лента могат да бъдат смекчени чрез софтуерна оптимизация. В зависимост от това как се разпределя натоварването в центровете за данни, възможно е да се скрие забавянето, като същевременно се минимизира необходимата честотна лента.

Практически реалности

Въпреки че е относително просто като концепция, обучението с множество центрове за данни също е изправено пред доста препятствия. В идеалния случай, центрове за данни да бъдат хомогенни. Те трябва да използват една и съща изчислителна архитектура, за да избягват тесни места.

Nvidia вече подготвя сцената за това от известно време със своите референтни дизайни DGX и SuperPod. На теория те трябва да помогнат на операторите на центрове за данни да избегнат главоболията от работа с неравномерни изчислителни архитектури.

В идеалния случай, мрежата ще бъде проактивно коригирана от машините вместо да разчита на реактивно маршрутизиране.

Въпрос на време

Необходимостта от разпределяне на работните натоварвания на AI в множество центрове за данни може да е неизбежна. Остава въпросът, в кой момент ще се наложи това.

AI моделите нарастват с бързи темпове всяка година. Те изискват повече мощност за постигане на производителност за поколенията. Изглежда, че е само въпрос на време тези системи да надраснат границите на един център за данни.

Сподели
Предишна страницаКакво ще ни предложи новият iPhone SE 4
Следваща страницаApple изследва хуманоидни роботи
Технологичен журналист от 2012 г. със сериозен опит в отразяването на новини за софтуер, мобилни технологии, мобилни приложения. Има в активите си стотици статии по теми като 3G, 4G, 5G, приложенията за iPhone, Android и други популярни платформи, както и множество други сфери.