博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
学界 !李飞飞高徒Andrej Karpathy提醒你,小心搭建神经网络的六个坑
阅读量:7015 次
发布时间:2019-06-28

本文共 745 字,大约阅读时间需要 2 分钟。

摘要: 继Ian Goodfellow的推特小课堂之后,特斯拉的人工智能研究负责人、李飞飞斯坦福高徒Andrej Karpathy也在twitter上分享了他对神经网络的一些研究技巧。

继Ian Goodfellow的推特小课堂之后,特斯拉的人工智能研究负责人、李飞飞斯坦福高徒Andrej Karpathy也在twitter上分享了他对神经网络的一些研究技巧。

昨晚,他连发几条twitter,细数了六种神经网络研究中的常见错误。引发了一波研究者们对于自己入过坑的吐槽。

image

来看一下Ian Goodfellow让你当心的这六个坑吧:

最常见的神经网络错误:

没有先试过所有数据一批处理
忘了为网络切换训练/评估模式
忘了在.backward()之前.zero_grad()(在pytorch中)
将softmaxed输出传递给预期原始logits的损失
使用BatchNorm时,您没有对线性/ 二维卷积层使用bias = False,或者反过来忘记将其包含在输出层中。 这个倒不会让你失败,但它们是虚假的参数
以为view()和permute()是一样的事情(不正确地使用view)

之后,在评论区,也有读者针对“对数据初始化”展开了讨论。

对此,Ian也进一步详细解释:

是的,有几次我重新打开数据,得到的损失值却一致,而且如果这样做会产生一个漂亮的损失曲线,这表明对数据初始化并不是明智的做法。我有时喜欢调整最后一层偏差,使之接近基础分布。

我喜欢先从最简单的开始,例如,先对所有未处理的数据进行训练,看看基本输出分布的表现如何,然后逐增加输入和扩大网络,确保每次都比以前的表现更好。

转载于:https://blog.51cto.com/13852775/2136602

你可能感兴趣的文章
二叉搜索树
查看>>
从12306看高性能网站并发集群与负载均衡
查看>>
网络数据隐私保护 各国齐出招
查看>>
MySQL解压版安装步骤
查看>>
docker的安装及使用
查看>>
mongodb按时间分组
查看>>
c/c++变量之内存空间分配
查看>>
state状态设计模式
查看>>
产品经理技能树之 项目节点
查看>>
简析Android软键盘弹出时窗口上移的问题
查看>>
http长轮询&短轮询
查看>>
Android 应用换肤功能(白天黑夜主题切换)
查看>>
Linux编程操作知识整理(continued)
查看>>
2012.8.13 onEnter与触摸事件
查看>>
基于 HTML5 WebGL 的 3D 棉花加工监控系统
查看>>
[redis] 获得 database, key, value
查看>>
swift之mutating关键字
查看>>
Nginx 0.8.x + PHP 5.2.13(FastCGI)搭建胜过Apache十倍的W...
查看>>
10个有趣的Javascript和CSS库
查看>>
ZiSync:跨平台局域网自同步工具
查看>>