ПЕКИН, 29 сен (Рейтер) - Китайский разработчик искусственного интеллекта DeepSeek выпустил «экспериментальную» модель, которая, по словам представителей компании, эффективнее поддается обучению и лучше обрабатывает длинные тексты по сравнению с предыдущими версиями больших языковых моделей.
Базирующаяся в Ханчжоу компания охарактеризовала модель DeepSeek-V3.2-Exp как промежуточный этап в создании архитектуры нового поколения.
Новая архитектура может стать самым значимым продуктом DeepSeek, с момента выпуска моделей V3 и R1, шокировавших Кремниевую долину и технологических инвесторов за пределами Китая.
Модель V3.2-Exp включает в себя механизм под названием DeepSeek Sparse Attention, который, по словам китайской компании, позволяет сократить затраты на вычислительные мощности и улучшить некоторые показатели производительности модели. Согласно сообщению DeepSeek в соцсети X, опубликованному в понедельник, компания снижает стоимость API более чем на 50%.
Оригинал сообщения на английском языке доступен по коду:
(Эдуардо Баптиста и Бюро Рейтер в Пекине)