他趴在我两腿中间吸我,亚洲成A∧人片在线播放无码,亚洲精品无码av人在线观看国产,亚洲情综合五月天

美國南加大學者在研究DeepSeek 24小時后,搞懂了模型降本的秘密

美國南加大學者在研究DeepSeek 24小時后,搞懂了模型降本的秘密

忻夏真 2025-01-27 悅科技 116 次瀏覽 0個評論

專題:DeepSeek為何能震動全球AI圈

  文 | 新浪科技 周文猛

  2025年蛇年春節前夕,DeepSeek徹底出圈了。

  1月27日,DeepSeek應用登頂蘋果美國地區應用商店免費App下載排行榜,在美區下載榜上超越了ChatGPT。同日,蘋果中國區應用商店免費榜顯示,DeepSeek成為中國區第一。

  DeepSeek究竟厲害在哪里?近日,浙江大學計算機博士、美國南加州大學訪問學者、《業務驅動的推薦系統:方法與實踐》作者傅聰在與新浪科技溝通中,解析了DeepSeek成功出圈背后的技術原理。

  目前,業界對于DeepSeek的喜愛主要集中在三個方面。第一,在技術層面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1兩款模型,分別實現了比肩OpenAI 4o和o1模型的能力。第二,DeepSeek研發的這兩款模型成本更低——僅為OpenAI 4o和o1模型的十分之一左右。第三,DeepSeek把這一兩大模型的技術都開源了,這讓更多的AI團隊,能夠基于最先進同時成本最低的模型,開發更多的AI原生應用。

  那么,DeepSeek是如何實現模型成本的降低?同時還保證模型效果比肩OpenAI 4o和o1模型的呢?

  在與新浪科技溝通中,傅聰在深入研究Deepseek開源論文24小時后表示:“Deepseek確實有兩把刷子,他們通過Multi-Head latent Attention(MLA)和DeepSeek MOE架構,節省了大量的顯存,進而實現底層算力的高效利用,以更低的成本,訓練出更加出色的模型效果,這種技術思路,是在DeepSeek V2版本發布時就已經得到驗證。”

  據傅聰介紹,目前,DeepSeek用于降低模型訓練成本的技術,至少包括以下四類:

  第一,DeepSeek使用了一種先進的、不需要輔助損失函數的專家加載均衡技術,該技術能保證每個token下,少量專家網絡參數被真正激活的情況下,不同的專家網絡能夠以更均衡的頻率被激活,防止專家網絡激活扎堆。

  “在DeepSeek V2時,他們在2360億參數規模的模型上已驗證了這一策略的有效性,這次DeepSeekV3他們在6710億參數規模的模型上進一步驗證了這一策略,這個規模基本接近頭部玩家目前最好的商用模型參數規模,我們也看到deepseek?V3所展示出的能力,在benchmark效果上與GPT4o和Claude-3.5能打個有來有回。”傅聰表示。

  第二,DeepSeek還設計了一種“對偶流水線(Dual Pipeline)機制”,可以通過極致的流水線調度,把GPU中用于模型訓練中數學運算的算力,和通信相關的算力在流水線執行過程中進行“并行隱藏”,實現了在訓練過程所有的時間中GPU幾乎不間斷地進行運算。理論上,這個流水線機制,可以讓GPU的指令執行流水線中的“氣泡”,比目前最好的技術設計降低接近一半,同時只略微增加顯存的消耗。

  第三,DeepSeek技術團隊還充分利用專家網絡被稀疏激活的設計,限制了每個token被發送往GPU集群節點(node)的數量,這使得GPU之間通信開銷穩定在較低的水位。

  第四,DeepSeek還實現并應用了FP8混合精度訓練的架構,在架構中的不同計算環節,靈活地、交替地使用FP8、BF16、FP32不同精度的“數字表示”,并在參數通信的部分過程也應用了FP8傳輸。在大大加快計算速度的同時,也降低了通信開銷。

  模型成本優化外,對于如何提升模型效果?傅聰指出,除了沿用MLA架構外,DeepSeek還應用了多token預測技術(multi token prediction),使得模型訓練的時候,會同時預測序列后面更遠的、不同位置的token。這可能使得模型有了對“更遠未來”的感知能力,以此增強模型的效果。

  在傅聰看來,DeepSeek V3是一個基礎模型,事實上距離OpenAI的o1還有較大距離。真正幫助DeepSeek追趕o1的是最新模型DeepSeek-R1,該模型幾乎單純使用強化學習技術進行“后訓練”,讓模型的推理能力得到了極大的提升。簡單來說,就是讓R1模型在“后訓練”過程中,通過學習CoT(思維鏈)的方式,一步一步推理得出結果,而不是直接預測答案。“這一方案,也是圈子內大家對OpenAI o1模型實現路徑的猜測,而Deepseek用極快的速度,驗證了這一路徑的可行性!”傅聰表示。

  在傅聰看來,DeepSeek R1所帶來的技術突破,不僅證明了強化學習(RL)以及 inference time scaling law這條路子的可行性。還證明了即便是小模型(7~13B),也可以通過CoT + RL實現思考和自我演化(self- evolution),大幅提升推理能力。之前小模型往往因為幻覺嚴重,備受詬病,現在看來很多小模型在充分優化后,也具備在應用場景落地的潛力。

  此外,R1的出現也會讓學界和產業界更加重視合成數據,“后訓練”時代,對基于CoT思想的優質合成推理數據的需求,將會大大增加。

你可能想看:

轉載請注明來自杭州城建集團_城市建設,本文標題:《美國南加大學者在研究DeepSeek 24小時后,搞懂了模型降本的秘密》

每一天,每一秒,你所做的決定都會改變你的人生!

發表評論

快捷回復:

評論列表 (暫無評論,116人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
網站統計代碼
主站蜘蛛池模板: 武胜县| 五河县| 太和县| 缙云县| 武威市| 呼和浩特市| 阳新县| 永丰县| 南丹县| 阳曲县| 榆中县| 北川| 霸州市| 淮阳县| 安达市| 攀枝花市| 石泉县| 纳雍县| 盘山县| 西贡区| 威远县| 朔州市| 阿拉善右旗| 上林县| 景洪市| 永清县| 嵩明县| 崇礼县| 遵义市| 拉萨市| 三河市| 章丘市| 沈阳市| 宁远县| 松阳县| 沛县| 松原市| 菏泽市| 芮城县| 灯塔市| 安新县|