听书阁_书友最值得收藏的免费小说阅读网

437. 傲慢的代價-《重生之AI教父》


    第(1/3)頁

     book chapter list     孟繁岐并不是第一次聽說DeepSeek的名字,雖然此前DS在大眾之中不能說是完全無人知曉,但說它是籍籍無名也不為過。

    比起天然擁有海量客戶的互聯網大廠們推出的AI模型,DS即便免費,但終究天然地在積累用戶方面有著巨大的劣勢。

    孟繁岐此前注意到DS,主要便是因為他們的技術路線與孟繁岐的幾個設想相似。

    由于在降低技術成本上頗有建樹,DS的API價格要低于市場平均水平許多,這使得它慢慢積累了一些技術型的用戶。不過這個規模在孟繁岐眼中,還遠遠上不了桌。

    前兩個月,DeepSeek已經迭代到了第三代。

    逐漸縮小的性能差異并沒有引起孟繁岐足夠的重視。

    而今天,詳細的技術報告以及R1版本的發布,才終于讓他明白,自己實在是后知后覺。

    震撼到孟繁岐的并不是單純性能上的逼近,而是諸多技術細節透露出的海量信息。

    比如,FP8的成功實現。

    孟繁岐有些不相信這個事實。

    半精度和FP8是他一直在大力推動的事情,而現在,DS反而成為了首個在超大規模模型上證明了FP8訓練完全可行的公司。

    孟繁岐沉著臉,翻閱著DS的技術報告,他們對框架內部的操作細節并不吝嗇。

    哪些核心操作做了FP8的量化,在什么步驟應該轉回BF16,又在哪里應該使用全精度FP32計算,標注十分詳細。

    向量層、輸出層、MoE門控模塊、標準化運算和注意力運算模塊進行了精度保留,而前向,激活反向,權重反向則用FP8執行。

    針對前向反向采用FP8會帶來的許多問題,報告中也知無不言。

    在低精度訓練框架中,由于 FP8格式的指數位較少導致其動態范圍受限,經常出現數值溢出和下溢的問題。傳統方法是將輸入張量的最大絕對值映射到 FP8格式的最大可表示值,將輸入分布對齊到可表示范圍內。然而,這種方法使得低精度訓練對激活值中的極端值特別敏感,可能導致量化精度顯著下降。

    孟繁岐也走到過這一步,部分FP8,部分BF16/FP32。僅僅如此是不夠的。

    DS最終采用的方案是在核心算子內部GEMM操作里引入縮放因子,這同樣是孟繁岐曾經考慮過的事情。

    但closeai最終沒有這樣做,因為英偉達顯卡的FP8并不直接支持這一功能。
    第(1/3)頁

主站蜘蛛池模板: 新乐市| 安国市| 肇州县| 大安市| 民乐县| 临湘市| 涡阳县| 望都县| 大竹县| 萝北县| 大关县| 聊城市| 丰台区| 重庆市| 荃湾区| 徐汇区| 柳江县| 成安县| 嵊州市| 监利县| 宜宾县| 星座| 突泉县| 舟山市| 承德市| 麻栗坡县| 林西县| 阿鲁科尔沁旗| 通海县| 新民市| 布尔津县| 手机| 安仁县| 武鸣县| 株洲市| 济阳县| 龙井市| 沧源| 南开区| 五家渠市| 尼玛县|