第(1/3)頁 2013年的暑假,距離比賽開始時間還有大約一個月的時間。 “模型的訓練過程需要將所有的權重,數據和許多中間過程都放入gpu中進行處理。因而gpu的顯存大小格外重要。”孟繁岐嘆了口氣,“即便是我們購買的旗艦690,也太小了,只有4g大小。” 比起后來被美國禁止賣給華國的a100-80g,690不說其他性能,單顯存就少了20倍。孟繁岐如今只能可憐巴巴地每次使用16張圖片對模型進行迭代。 “一次十六張,一次循環要接近一百萬次才能更新完整個數據集。而想把模型收斂好,上百次循環又是少不了的。” 孟繁岐估算了一下,這個版本出一次結果要接近20天,最后的訓練過程確實大概消耗了三周左右以收斂到現在的這個性能。 好在imagenet在后來基本成為了每個算法工程師必調參的練手數據集,孟繁岐自己就曾無數次刷榜,自然是輕車熟路,清楚各類參數的大概設置。 這為他至少節省了一兩個月的珍貴時間。 即便一次訓練需要三周之久,孟繁岐卻仍舊趕在比賽開始之前就已經準備好了一版模型。 看著訓練出來的模型最終性能達到了預期,孟繁岐心中的一塊大石總算落地了。 這幾個月來,他唯一擔心的一件事情就是多年前的老框架會出一些他意料之外的問題,導致最終的結果不能和理論預期吻合。 一旦這種事情發生,找到問題所在并測試解決的代價就太大了。倘若不能夠及時解決,會很大影響到他初期的規劃。 眼下的結果大約在4.9%的top-5錯誤率,這個版本比后世論文中的性能要稍差了一丁點,但好在仍舊強于賽事方給出的人類標準了。 一般來說,比賽前是不會公布比賽所使用的具體數據的。只是imagenet比賽比較特殊,一千多萬量級的圖片,總不可能辦一兩次比賽就舍棄掉,不再使用。 因而每屆比賽所用的數據是變化很小的,只是具體賽道,所競爭的內容和評判的方式常會有所調整。 雖說imagenet休賽的時期其實也可以提交結果,孟繁岐現在就可以把這個結果上傳上去,奪取第一的位置,但關注度畢竟不可與賽時的激烈競爭同日而語。 第(1/3)頁