第397章 这个黄毛,他懂AI (第2/3页)
任少卿没说话。
“效率。”
顾屿吐出两个字,
“你的模型在做大量无效计算。它用同样的力气处理每一个输入,不管那个输入重不重要,不管当前任务简单还是复杂。这是架构设计上的浪费,不是数据和算力能补回来的。”
“你说的这个问题,”
任少卿的眉头拧了一下,
“在卷积结构里,局部感受野决定了模型必须平等对待每一个特征图的位置,这是结构本身的天花板,目前没有好的解法。除非……”
他沉默了两秒,
“你是想让模型学会‘选择性注意’?而不是对每个输入都倾尽全力?”
顾屿眉毛微微一挑。这家伙,触到边了。
“差不多。”
顾屿说。
任少卿彻底闭上了嘴。
顾屿靠在椅背上,目光落在走廊另一端透进来的夕阳上。
2025年初的那个冬夜,为了给公司续命而变卖了所有家产。
只能缩在北京一间阴冷逼仄的出租屋里盯着融资失败通知书的自己,做的也是这件事。
堆参数,堆数据,堆算力,堆到搭进去自己的一切,烧光了公司账上最后一分钱。
当时全球的AI大厂全都陷入了“算力霸权”的迷信里,像硅谷的OpenAI为了训练一个达到顶尖效果的GPT-4模型,光是纯硬件算力就疯狂烧掉了一亿多美金!
那简直是组建了一支几万人的重装钢铁洪流,用铺天盖地的钞票硬生生砸开技术的大门。
然后,DeepSeek的技术报告横空出世了。
满打满算,不到六百万美元!
连人家巨头一个零头都不到的训练成本,却打出了一个在各项核心测试上媲美甚至超越上亿美金模型的极限成绩,一纸报告,直接让全世界的同行闭嘴。
这其中的差距,用个最通俗易懂的比喻来说:
同样是做一桌极其复杂的满汉全席,硅谷巨头就像是个不差钱的傻大款,花天价雇了十万个米其林三星主厨。
结果呢?
不管是烹饪极品鲍鱼,还是在后厨切大葱、洗盘子,全都让这帮拿着天价年薪的主厨去干。
而DeepSeek的打法,是极其精打细算的“扫地僧”。
它只留极少部分核心主厨在最关键的位置,剩下的全是切菜工和帮厨。
系统一旦拿到任务。
点个拍黄瓜,直接丢给切菜工去干;点个佛跳墙,主厨才下场。
它通过极简的底层算力优化和MOE(混合专家架构),绝不浪费哪怕一滴多余的算力。
顾屿当时读完那份报告,在椅子上坐了很久。
不是看不懂。
是看懂了,才明白。
那场属于AI时代的终极竞赛,从来不是比谁的肌肉更大,不是比谁更有钱,而是比谁浪费得更少。
任少卿跑的这条路,在2013年是对的。
但终点在哪,他恐怕想不到。
“你现在做的东西,”
顾屿收回目光,看向任少卿,
“在2013年是对的。但沿这条路走下去,十年后,你会碰到一堵墙。”
“什么墙?”
“规模的边际效益递减。”
顾屿顿了顿,把那套逻辑往更通俗的地方压,
(本章未完,请点击下一页继续阅读)