開源再次比肩世界頂級閉源模型
DeepSeek-V4發佈
【本報訊】據觀察者網廿四日消息:去年憑借低成本模型在世界一鳴驚人、並迅速躋身行業頭部的中國人工智能初創公司深度求索(DeepSeek)於本周五(四月廿四日)發佈了備受期待的新模型預覽版DeepSeek-V4。
該模型專為華為芯片技術進行了適配,在研發過程中與華為緊密合作,與此前DeepSeek依賴英偉達芯片的做法形成對比,不過DeepSeek未透露訓練起最新模型具體使用了哪些處理器。
滿足不同場景
據悉,DeepSeek-V4系列包含兩個MoE模型版本,分別是滿足高性能研發的DeepSeek-V4-Pro,以及滿足經濟高效部署需求的DeepSeek-V4-Flash。其中,DS-V4-Pro總參數達一點六萬億,啟動參數49B,主要面向尖端任務,性能比肩頂級閉源模型。DS-V4-Flash則總參數二千八百四十億,啟動參數13B,定位為經濟之選。兩款模型均原生支援1M上下文,且成為DeepSeek所有官方服務的標配。
根據官方公佈的具體性能,DS-V4-Pro在Agent能力、世界知識和推理性能方面,達到了開源模型的前列。
在Agentic Coding評測中,DS-V4-Pro版達到當前開源模型最佳水平,且已成為公司內部員工使用的Agentic Coding 模型,使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式。
世界知識測評中,DS-V4-Pro大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1。
在數學、STEM、競賽型代碼等推理任務中,DS-V4-Pro超越所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。
開創全新機制
值得一提的是,DeepSeek-V4開創了一種全新的注意力機制,在token維度進行壓縮,結合DSA稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力。相比傳統方法,該技術大幅降低了對計算和顯存的需求。相比DeepSeek-V3.2,所需的計算量和顯存容量已大幅降低。
目前,DeepSeek-V4可通過官網及官方App直接使用。API服務也同步上線,支援OpenAI ChatCompletions與Anthropic兩套介面標準,開發者將model參數修改為deepseek-v4-pro或deepseek-v4-flash即可調用。