Той превъзхожда кодирането на електронни таблици
Microsoft изгради нов голям езиков модел. Той може да накара счетоводителите и анализаторите на данни да започнат да се чувстват малко нервни относно бъдещите си перспективи за работа. New LLM има потенциала да трансформира управлението и анализа на данни. Това проправя пътя за по-интелигентни и ефективни потребителски взаимодействия.
Компанията пусна първите подробности за SpreadsheetLLM. Това е нов, високо ефективен модел изпълняващ различни задачи за електронни таблици. Той има потенциала да трансформира управлението и анализа на данни в електронни таблици.
Това е още един знак, че LLM скоро ще могат да работят със структурирани и неструктурирани данни от електронни таблици. Това ще отключи много случаи на употреба (прогнози, финанси, оценки и т.н.).
Предизвикателствата пред модела
Досега LLMs са били зле подготвени да се справят с електронни таблици, които се характеризират със своите обширни двуизмерни мрежи, гъвкави оформления и разнообразни опции за форматиране. Последните представляват значителни предизвикателства за големите езикови модели (LLM).
В отговор е създаден SpreadsheetLLM. Той е пионер в ефективността за кодиране. Предназначен е да отприщи и оптимизира мощната способност за разбиране и разсъждение на LLM върху електронни таблици.
Един от проблемите при използването на LLM в електронни таблици е, че те се затрупват с твърде много токени. За да се справи с това, Microsoft разработва SheetCompressor. Това е иновативна рамка за кодиране, която компресира електронни таблици ефективно за LLMs.
Той значително подобрява производителността при задачите с електронни таблици, превъзхождайки досегашните подходи с 25,6%.
Моделът е съставен от три модула: компресия, базирана на структурна котва, обратна индексна транслация и агрегиране, съобразено с формата на данните.
Как работят?
Първият от тези модули включва поставяне на структурни котви в цялата електронна таблица, за да помогне на LLM да разбере по-добре какво се случва. След това премахва отдалечени, хомогенни редове и колони, за да създаде съкратена скелетна версия на таблицата. Преводът на индекса адресира предизвикателството, причинено от електронни таблици с множество празни клетки и повтарящи се стойности, които използват твърде много токени.
За да се подобри ефективността се използва превод на обърнат индекс без загуби във формат JSON. Този метод създава речник, който индексира текстове на непразни клетки и обединява адреси с идентичен текст. Това оптимизира използването на токени, като същевременно запазва целостта на данните.