Начало GameBox Новини Кой ще реши енергийните нужди на AI?

Кой ще реши енергийните нужди на AI?

14.06.2024

1-битовите LLM биха могли да дадат отговора

Големите езикови модели, които захранват чатботове като ChatGPT, стават все по-добри, но и по-големи, изисквайки повече енергия и изчислителна мощност. LLM са евтини, бързи и екологични, но ще трябва да станат достатъчно малки, за да работят директно на устройства като мобилни телефони. Изследователите намират начини да направят точно това, като драстично закръглят многото числа с висока точност, които съхраняват техните спомени, за да се равняват само на 1 или -1.

LLM, както всички невронни мрежи, се обучават чрез промяна на силата на връзките между техните изкуствени неврони. Тези силни страни се съхраняват като математически параметри. Изследователите разполагат с дълго компресирани мрежи чрез намаляване прецизността на тези параметри. Това е процес, наречен квантуване, така че вместо да заемат 16 бита всеки, те могат да заемат 8 или 4. Сега учените натискат обвивката до един бит.

Как да направите 1-битов LLM?

Има два общи подхода. Първият е наречен квантуване (PTQ). При него се квантуват параметрите на мрежа с пълна точност. Другият подход е обучение с квантиране (QAT). Той обучава мрежа от нулата да има параметри с ниска точност. Към момента PTQ е по-популярен сред изследователите.

BiLLM

През февруари екип от учени представи PTQ метод, наречен BiLLM. Той приближава повечето параметри в мрежа с помощта на 1 бит. Еднобитовите LLM отварят нови врати за проектиране на персонализиран хардуер и системи, специално оптимизирани за 1-битови LLM.

За да оценят ефективността, изследователите са използвали показател, наречен объркване. Той ще определи, колко изненадан е бил обученият модел от всяка следваща част от текста. За един набор от данни оригиналният модел демонстрира объркване от около 5, а версията на BiLLM отбеляза около 15. Това е много по-добре от най-близкия конкурент за бинаризация, който отбеляза около 37. Въпреки това моделът BiLLM изисква около една десета от капацитета на паметта на оригинала.

PTQ има няколко предимства пред QAT. Той не изисква събиране на данни за обучение, не се нуждае от обучение на модел от нулата и целият процес е по-стабилен. QAT, от друга страна, има потенциала да направи моделите по-точни, тъй като квантуването е вградено в модела от самото начало.

1-битовите LLM постигат успех

Миналата година екип от Microsoft Research Asia, в Пекин, създаде BitNet. Това е първият 1-битов QAT метод за LLM. След като се занимаваха със скоростта, с която мрежата коригира параметрите, за да стабилизират обучението си, те създадоха LLM, които се представиха по-добре от тези, създадени с помощта на PTQ методи. Те се оказват приблизително 10 пъти по-енергийно ефективни.

През февруари беше обявен BitNet 1.58b. В него параметрите могат да бъдат равни на -1, 0 или 1. Това означава, че заемат приблизително 1,58 бита памет на параметър. Модел BitNet с 3 милиарда параметъра се представи също толкова добре при различни езикови задачи, колкото модел LLaMA със същия брой параметри и количество обучение. Той беше 2,71 пъти по-бърз, и използва 72% по-малко GPU памет и 94% по-малко GPU енергия. Изследователите установиха, че докато обучават по-големи модели, предимствата на ефективността се подобряват.

Модел BitNet с 3 милиарда параметъра се представи също толкова добре при различни езикови задачи, колкото и модел LLaMA с пълна точност.

OneBit

Тази година екип от Технологичния институт в Харбин, пусна предварителна версия на друг метод за бинаризация на LLM, наречен OneBit. Той съчетава елементи от PTQ и QAT. Използва предварително обучен LLM с пълна точност, за да генерира данни за обучение на квантована версия. Моделът с 13 милиарда параметъра постигна резултат на объркване от около 9 за един набор от данни, срещу 5 за модел LLaMA с 13 милиарда параметъра. Междувременно OneBit заема само 10% повече памет.

Сегашният хардуер обаче не може да се възползва напълно от тези модели. LLM често работят на графични процесори като тези, направени от Nvidia. Те представляват тегла с по-висока точност и изразходват по-голямата част от енергията си за умножаването им. Новият хардуер може естествено да представя всеки параметър като -1 или 1 (или 0), а след това просто да добавя и изважда стойности и да избягва умножението. Това е дълъг път за разработването на нов хардуер.