Начало За нас OpenAI ще изгражда нови набори от данни

OpenAI ще изгражда нови набори от данни

13.11.2023

Компанията иска да работи с организации за изграждане на нови набори от данни за обучение на AI

Както наскоро беше подчертано от ново проучване, данните използвани за обучение на големи езикови модели като Llama 2 на Meta, съдържат токсичен език и пристрастия. Публична тайна е, че наборите от данни, използвани за обучение на AI модели, са дълбоко погрешни. Моделите засилват тези недостатъци по вредни начини. Сега OpenAI планира да се бори с тях, като си партнира с външни институции за създаване на нови и подобрени набори от данни.

Data Partnerships

OpenAI обяви Data Partnerships. Това е опит за сътрудничество с организации на трети страни за изграждане на публични и частни набори от данни за обучение на AI модели. Data Partnerships ще има за цел да позволи на повече организации да помогнат за управлението на AI. Нужно е въвеждането на нови модели, които са по-полезни.

Нужно е моделите на AI да разбират задълбочено всички теми, индустрии, култури и езици, за да се създаде AI, който е безопасен за цялото човечество. Това изисква възможно най-широк набор от данни за обучение. Включването на ценно съдържание може да направи AI моделите по-полезни за потребителите, като увеличи разбирането им за даден домейн.

Надеждно партньорство

OpenAI сподели, че ще събира мащабни набори от данни. Те ще отразяват човешкото общество. Такива не са лесно достъпни онлайн. Компанията планира да работи в широк спектър от модалности. В това число изображения, аудио и видео. По-специално се търсят данни, които изразяват човешкото намерение. Такива могат да бъдат разговорите или дългосрочното писане на различни езици, теми и формати.

OpenAI ще работи с организации за дигитализиране на данните за обучение. Те ще използват комбинация от инструменти за оптично разпознаване на символи, реч и премахване на чувствителна или лична информация, ако е необходимо.

Намеренията на компанията са създаване на два типа набори от данни. Един с отворен код, който би бил публичен за всеки използващ AI модели и частни набори от данни за собствени модели на AI. Частните набори са предназначени за организации, които желаят да запазят поверителността си, но искат да създадат по-добро разбиране за техния домейн.

До този момент OpenAI е работила с исландското правителство и Miðeind ehf, за да подобри способността на GPT-4 да говори исландски и с Free Law Project, за да подобри разбирането на правните документи в модели. Като цяло се търсят партньори, които искат да допринесат за напредъка на AI. Това би било в полза на всички.

Нови проблеми

Елиминирането на пристрастията към набора от данни е проблем, който озадачава много от световните експерти. Всички мислим, че компанията е прозрачна относно процеса и предизвикателствата, които неизбежно среща при създаването на тези набори от данни.

Не можем да пренебрегнем и ясната търговска мотивация за подобряване производителността на моделите на OpenAI за сметка на други. Всеизвестно е, че компанията е обучила много от своите модели за работа без изрично разрешение или заплащане за конкретни данни.

Компанията иска да работи с организации за изграждане на нови набори от данни за обучение на AI

Прочети за: