返回

第384章 17岁,跨洋代码

首页
关灯
护眼
字:
上一章 回目录 下一页 进书架
    第384章 17岁,跨洋代码 (第1/3页)

    2024年7月25日,星期四,晚上八点。

    深圳,默石资本,技术部。

    暑假已经过半,技术部的灯比平时亮得更晚。陆方坐在工位上,面前是三块屏幕,每块都显示着密密麻麻的代码和模型输出。他正在测试星海大模型模块的准确率——89%,比上个月提高了1个百分点,但离90%的目标还有差距。他有些沮丧。不是因为他不够努力,是因为他觉得自己可能走错了方向。大模型的发展太快了,每个月都有新论文,每个月都有新模型。他追不上。

    手机震动了。是陈曦发来的消息:“陆方叔叔,我这边是早上。你那边应该是晚上吧?吃饭了吗?”

    陆方回复:“还没。在调模型。”

    陈曦:“什么模型?”

    陆方:“星海的大模型模块。准确率卡在89%,上不去了。”

    陈曦:“你有没有试过开源模型?比如LLaMA、Falcon、Bloom?我用它们在伯克利的服务器上做过测试,准确率能到92%。”

    陆方愣了一下。他当然知道这些开源模型,但他没有试过。因为他的思维还停留在“自己训练模型”的阶段,没有想过用现成的开源模型做微调。这就是代际差异——他这一代人,习惯从零开始造轮子;她那一代人,习惯站在巨人的肩膀上。

    陆方:“我没试过。你能帮我跑个测试吗?”

    陈曦:“可以。你发我一份测试数据集。”

    陆方从星海平台导出100份招股书摘要和对应的分析报告,打包发给陈曦。数据集不大,几百兆。

    陈曦:“收到了。我明天给你结果。”

    陆方:“好。谢谢。”

    陈曦:“不客气。”

    2024年7月26日,星期五,上午十点。陆方收到了陈曦的测试结果。她用了三个开源模型——LLaMA-7B、Falcon-7B、Bloom-7B——在伯克利的服务器上做了微调。结果让陆方震惊——LLaMA-7B的准确率最高,达到91.5%,比星海大模型模块的89%高出2.5个百分点。Falcon-7B达到90.2%,Bloom-7B达到89.8%。三个模型的平均准确率90.5%,超过了星海。

    陆方看着那个数字,沉默了很久。他想起自己花了三个月时间调参数、优化模型,准确率只提高了1个百分点。陈曦只花了一个晚上,用开源模型微调,就把准确率提高了2.5个百分点。不是他不够努力,是方向错了。

    他给陈曦发消息:“结果收到了。开源模型确实比我们的好。”

    陈曦:“不是我强,是模型强。你们也可以试试。开源模型,成本低,效果好。不用自己从头训练。”

    陆方:“我试试。”

    陈曦:“需要帮忙吗?”

    陆方:“需要。你教我怎么微调。”

    陈曦:“好。我写个教程给你。”

    陆方看着那行字,笑了。他想起2019年,陈曦第一次来公司,画了那张产业链图谱。那时候,她才11岁,什么都不懂。现在,她在伯克利,教他做大模型。时间过得真快。

    陆方:“你才学多久,就比我们强了。”

    陈曦:“不是我强,是模型强。你们也可以试试。”

    陆方:“已经在试了。等你回来,我们一起做星海4.0。”

    陈曦:“好。一言为定。”

    2024年7月27日,星期六,上午九点。陈默走进技术部,看到陆方正对着屏幕发呆。

    “怎么了?”陈默问。

    陆方转过头。“陈总,昨天陈曦帮我跑了开源模型测试,准确率91.5%,比星海大模型模块高2.5个百分点。”

    陈默愣了一下。“她怎么做到的?”

    “用开源模型微调。LLaMA、Falcon、Bloom。在伯克利的服务器上跑了一个晚上。”

    陈默走到屏幕前,看着那些数据。“你试了吗?”

    “正在试。她用了一个简单的微调方法,只训练了最后一层。效果好,速度快。”

    陈默笑了。“下一代,真的不一样。”

    陆方点头。“对。他们比我们开放。我们习惯从零开始造轮子,他们习惯站在巨人的肩膀上。”

    陈默拍了拍陆方的肩膀。“那就跟着他们学。”

    陆方也笑了。“好。”

    2024年7月28日,星期日,下午两点。陆方按照陈曦的教程,成功微调了LLaMA-7B模型。准确率91.2%,和伯克利的结果基本一致。他兴奋地给陈曦发消息:“成功了!91.2%。”

    陈曦回复:“恭喜!接下来可以试试更大的模

    (本章未完,请点击下一页继续阅读)
上一章 回目录 下一页 存书签