Hello World

CodeTengu Weekly 碼天狗週刊

如果命運的齒輪沒有出差錯,CodeTengu Weekly 都會在 UTC+8 時區的每個禮拜一 AM 10:00 出刊。每週會由三位 curator 負責當期的內容,每個 curator 有各自擅長的領域,如果你在這一期沒有看到感興趣的東西,可能下一期就有了。當然你也可以瀏覽一下前幾期的內容

目前的 curator 陣容:

你也可以關注我們的 FacebookTwitterGitHubOpen Source 專案,有很多 weekly 看不到的內容。有任何建議也歡迎來 Gitter 聊聊。

彷彿致力於解決開發者之間的資訊不對稱  

@uranusjr@uranusjr



@drumrick@drumrick

檢討 ImageNet 以及 CIFAR-10,或是?

最近,在影像分類界地位無可動搖的兩大測試資料集 ImageNet 和 CIFAR-10 紛紛遭到質疑。首先 Google 五月底發論文討論了使用 ImageNet 做 transfer learning 的能力,接著是六月初 Berkeley 跟 MIT 發論文討論了 CIFAR-10 各模型的泛化能力。

Google: Do Better ImageNet Models Transfer Better?
挑了 13 個模型,12 個資料集,分別做 ImageNet Pre-trained Feature、ImageNet Pre-trained Fine Tuned、Train From Scratch 三種情況。說結論,fine tuned 幾乎都能維持相對的水準,少數資料集 train from scratch 會有比較好的結果,但是 fine tuned 花的時間相對少得多。簡單來說,用 ImageNet 表現好的模型做 transfer learning 還是可行的。

Berkeley & MIT: Do CIFAR-10 Classifiers Generalize to CIFAR-10?
這篇的出發點就不是那麼友善,作者們仿造 CIFAR-10 製作資料的流程,自己做了一份小的「CIFAR-10 水貨」,接著拿各個模型來對這個「CIFAR-10 水貨」進行測試,結果,大家的準確率都掉了,有的還掉得離譜。幾位大神見獵心喜,紛紛發表看法,OpenAI 表示之前也在 MNIST 觀察到同樣的情況,Keras 的作者 Francios 更是一連發表了好幾則推特,表達對於目前整個研究界集體 overfitting 測試資料集的情況,應該有更好的改善。

到底是測試資料集真的不適用?或是 overfitting 的模型不應該?至少這兩篇的實驗結果,在各位下次挑選模型的時候,能多個參考。

CodeTengu Weekly  




@allanlei@allanlei