听书阁_书友最值得收藏的免费小说阅读网

第113章 意外的邀請-《重生之AI教父》


    第(1/3)頁

     book chapter list     相比效果顯著,非常出色的老虎算法,移動端優化排序算法的效果要稍差一些。

    因而孟繁岐并沒有急著推動上線測試,而是等待結合AI語言解釋模型的那一個更新準備一起推動。

    目前針對語言問題所采用的通常是循環神經網絡(RNN)和長短期記憶辦法(LSTM),這兩個工作都是上個世紀末的老辦法了。

    這兩種方法簡明好用,因而一直興盛到2017年左右。

    直到Transformer,也就是ChatGPT的T方法出現。

    通常來說,大家都認為Transformer方法之所以能夠迅速取代RNN和LSTM,主要是因為它更方便并行進行。

    在多個設備上容易做到并行,這件事最核心的意義便是讓規模龐大的版本成為可能,這也為后來ChatGPT這樣的究極巨無霸模型奠定了基礎。

    “其實老版的RNN也有辦法可以把并行做得很好,領域內對這件事有很大的誤解。”孟繁岐皺著眉頭思索道。

    原本時間線,Transformer出來之后,所有人都放下了手頭老方法的研究,擁抱了T方法。

    可18年實際上有人專門做了RNN的高度并行,只可惜已經太遲了。

    如果這個發現可以早一年的時間,可能RNN會長期作為T辦法的競爭對手,我們也有可能看到ChatRNN的出現。

    “早期的T方法需要很多數據,各種參數比較難調整,需要的計算能力也很龐大。”孟繁岐即便根據后來成熟的許多方法做了一個改進的版本,T方法在早期仍舊比較麻煩。

    “好在谷歌的數據和算力都不缺,而我也比較熟悉各種經典的參數設置。”孟繁岐先寫了一個雛形版本的T方法,進行了一下測試。

    “不過,受限于現在顯卡的顯存,模型沒有辦法做得很大,除非我專門再去開發DeepSpeed這樣的高級并行方式。”

    在多張卡上訓練模型,可能是為了追求速度,也可能是因為一張卡上放不下了。

    其中,數據并行是最簡單的,也就是不同的卡都在做同樣的事情,每張卡上都會存放一個模型。

    只不過輸入的數據不一樣,不同的卡做完運算之后,再一起整合更新。

    就像是所有人都拿了同樣的刀切不同的菜,最后把切好的食材堆在一起。

    可有的時候,一張卡上根本就放不下模型,這樣的情況就比較麻煩了。因為一個人根本拿不動這把刀了,需要多人協作。

    可以把每一層拆分到不同的卡上,也可以把不同層分配到不同的卡上,如此一來,其實是用多卡實現了類似單卡訓練的效果。
    第(1/3)頁

主站蜘蛛池模板: 昆明市| 泊头市| 遂溪县| 连山| 梧州市| 徐汇区| 南溪县| 鹰潭市| 丰原市| 泉州市| 称多县| 孝昌县| 札达县| 池州市| 台山市| 扶风县| 江城| 太谷县| 克什克腾旗| 河北省| 交口县| 阿拉善右旗| 始兴县| 宣恩县| 桃园市| 新干县| 武邑县| 陕西省| 永平县| 沅陵县| 桐乡市| 黄大仙区| 元江| 金乡县| 乌兰察布市| 肃南| 磐石市| 普陀区| 柳江县| 余庆县| 阿拉善盟|