第(1/3)頁 會議大廳,羅靖環視眾人道:“比如一個問題是對一個小孩解釋什么是登入火星,給的回答是一些人去了火星。然后把這些對話內容作為一個數據集,讓靈境gpt進行學習,但光是上課不能畢業,想要畢業就得做題、考試。” 羅靖環視眾人笑道:“其實就是一個反饋機制,所以我們接下來的任務是要給靈境gpt加上來自人類反饋的強化學習,也就相當于是參加考試。回答錯誤,重修;回答正確,進一步學習,直到靈境gpt通過考試拿到足夠的學分來證明自己的能力。” 回頭瞄了眼會議大屏幕并且按了下小遙控器,羅靖條理清晰地說:“具體怎么做呢?還是剛剛的問題舉例,給一個小孩解釋什么叫登陸火星,讓微調過的也就是上完課程的靈境gpt來回答,會生成四個答案,a解釋重力、b解釋戰爭、c解釋火星是一個天體、d人類去了火星。” 說到這里,羅靖頓了片刻繼續說道:“然后就是根據真實、無害、有幫助等若干維度來給這些答案排序、評分,排序結構就是d>c>b=a,之后就是將這些問題和答案以及答案的排序,將這些數據集拿來訓練一個獎勵模型,訓練的目標是讓建立模型的評分標準接近人工排序標準。” “相當于是訓練一個ai老師,之后就是最后一步了,通過強化學習來繼續訓練微調后的靈境gpt,把生成的答案拿去給前面訓練好的獎勵模型進行打分,根據打分來調整,最終就是靈境gpt生成的答案獲得的分數越高越好,一個語言大模型就誕生了。” 羅靖環視在場的工程師們:“隨著持續的學習、不斷的數據投喂,用海量的數據對靈境gpt進行訓練,直到突破某個臨界值節點的那一刻,它將表現的越來越像人,以至于一個普通人隔著屏幕跟它聊天的時候甚至都無法察覺對方是個ai。” 接下來,羅靖繼續講述這個語言模型的內核,在場的工程師們直呼開眼,這要是成功了簡直不得了。 這就是t10級大神么? 末了,羅靖突然話鋒一轉,旋即說道:“但靈境gpt的大模型以此開發,還是有它自身的局限性,而且這種局限性是先天注定的。” 與會的工程師們一言不發,一個個都認真的聽著,大部分人還在做筆要紀錄。 羅靖說道:“要讓靈境gpt能夠‘讀懂’人類的語言是基于統計學規律靠死記硬背,那就意味著它沒有接觸過的知識是不知道的,比方說投喂給靈境gpt的歷史數據知識是截止到2010年,那么在2010年之后到現在發生的事情它就一概不知,無法生成正確答案。” 眾人不由得點了點頭。 第(1/3)頁