带着手机重生，目标科技教父最新章节

报错

关灯

护眼

字:

大

中

小

回目录

进书架

    第636章 AlexNet登场 (第2/3页)

立刻转身面对伊利亚，开始在白板上列数据。

    “表面上看是两码事，但实际上完美契合。你想想，我们现在的代码用CPU跑，为什么这么慢？”亚历克斯反问。

    伊利亚思索了一下。

    “因为要处理庞大的矩阵乘法运算，数据量太大了。”伊利亚如实回答。

    亚历克斯重重地敲了敲白板。

    “这就对了！CPU的核心数量很少，一般只有两到八个。它的架构设计是为了处理操作系统里复杂的逻辑分支。”亚历克斯开始分析。

    接着，他在旁边写下英伟达显卡的参数。

    “但你看GPU。它精简了复杂的控制逻辑，把芯片面积全留给了几百上千个小计算核心。”亚历克斯指着那些数字。

    “深度神经网络的核心运算是什么？就是海量的加减乘除和取最大值。根本不需要复杂的逻辑跳转。”亚历克斯看着两人。

    “让几个全能的CPU核心排队去处理上百万次简单的乘法运算，这完全是资源错配。”亚历克斯抛出核心论点。

    “而GPU的几百个核心，可以把这上百万次乘法拆解开，同步进行并行计算。这才是真正的算力匹配！”亚历克斯提高了音量。

    教研室里安静了几秒钟。

    伊利亚的大脑飞速运转，推演着亚历克斯的设想。

    “如果真能把我们的代码通过CUDA接口迁移到GPU上……”伊利亚喃喃自语。

    “几百个核心同时进行矩阵运算，训练速度绝对会成百倍上升！以前需要一个月的模型，可能两天就能跑出结果！”亚历克斯接上了伊利亚的话。

    辛顿听完亚历克斯的长篇大论，陷入了深深的思考。

    他站起身，走到白板前，看着亚历克斯写下的对比数据。

    “2006年的时候，我一直在研究深层网络训练难的问题。”辛顿缓缓开口。

    亚历克斯和伊利亚都安静地听着导师的复盘。

    “由于信号在传播过程中会逐层衰减，也就是梯度消失，导致网络根本无法有效训练。”辛顿指出当年的痛点。

    “后来我提出了逐层预训练的方法。先逐层训练好每一层的参数，再堆叠起来整体训练。”辛顿回顾着自己的理论成果。

    “这个理论证明了深度的价

    （本章未完，请点击下一页继续阅读）

回目录

存书签