DeepSeek пусна нов хартиясъс съоснователя Liang Wenfeng, посочен като сътрудник, описвайки как неговият най-нов голям езиков модел DeepSeek-V3 постига ефективно обучение и изводи, използвайки само 2048 H800 GPU – значително по-малко от десетките хиляди, които обикновено се изискват. Екипът приписва тази ефективност на четири ключови нововъведения: оптимизиране на паметта чрез латентно внимание с множество глави (MLA), спестяване на изчисления чрез дизайн на Mixture-of-Experts (MoE) с прецизност на FP8, подобрения на комуникацията с помощта на мрежова топология с много равнини и по-бързо заключение чрез предсказване с множество токени (MTP). С MLA използването на KV кеш памет е намалено до само 70 KB на токен, до 1/7 от това на конкурентните модели. Архитектурата на MoE активира само 37 милиарда от 671 милиарда параметри на модела за едно преминаване напред, намалявайки разходите за обучение с 90% в сравнение с плътните модели. Обучението по FP8 допълнително намалява наполовина изчисленията и използването на паметта с минимален компромис с точността. Отвъд модела, документът очертава и пет бъдещи насоки за хардуерен дизайн на ИИ, като се застъпва за по-тясна интеграция между софтуера и хардуера за справяне с тесните места в паметта, изчисленията и мрежите. [36Kr, in Chinese]
Свързани
Източник Българо-Китайска Търговско-промишлена палaта