DeepSeek-V3 вече е най-добрият AI модел с отворен код
DeepSeek AI публикува резултатите от бенчмарка и надмина водещия модел Llama 3.1 405B на Meta по параметри, сред много други модели със затворен код. Освен това бележи три пъти по-бързи резултати от своя предшественик, DeepSeek V2.
Китайската изследователска лаборатория за изкуствен интелект DeepSeek пусна DeepSeek-V3. Това е най-новата версия на техния граничен модел. Mixture-of-Experts включва общо 671B параметри, като 37B са активирани за всеки токен. Моделът е обучен на 14,8 трилиона токена. DeepSeek пусна модела в GitHub заедно с подобрени технически характеристики, очертаващи неговите възможности.
Оценките показват, че DeepSeek-V3 се очертава като най-силния наличен модел с отворен код в момента. Той постига производителност, сравнима с водещи модели със затворен код като GPT-4o и Claude-3.5 Sonnet. Тук са отсети и възможностите за разсъждение от серията модели DeepSeek R1. Той елегантно включва моделите за проверка и отражение на R1 в DeepSeek-V3, както и значително подобрена производителност на разсъждение.
Колко ще струва?
Ценообразуването на API ще остане същото като DeepSeek V2 до 8 февруари 2025 г. След това ще бъде $0,27 за милион токени по време на въвеждане и $1,10 за милион токени по време на изход. Това го прави и един от най-евтините модели на пазара.
Докато o1 отбеляза 76% резултат на GPQA Diamond (PhD-Level Science Questions) бенчмарка, DeepSeek изостава с 59,1% резултат. Пълната версия на o1 побеждава DeepSeek на множество бенчмаркове. Въпреки това, DeepSeek-V3 превъзхожда желания Claude 3.5 Sonnet в множество такива.
Темпове на растеж
DeepSeek прави големи крачки в екосистемата на AI с отворен код през последните няколко месеца. Само преди няколко седмици компанията пусна V2.5-1210, последния модел от серията V2. Той е достъпен на chat.deepseek.com. Потребителите могат да превключват функцията за търсене в интернет на уебсайта за отговори в реално време или да интегрират модела чрез Hugging Face.
От друга страна, Qwen 2.5 на Alibaba, предлага паритет на производителността с много водещи модели. Серията Qwen2.5-Coder се отличава с генерирането на код, отговаряйки на възможностите на GPT-4o при бенчмаркове като EvalPlus, LiveCodeBench и BigCodeBench.