星洲网
星洲网
星洲网 登入
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

副刊

|

新教育

发布: 10:00am 12/02/2025

新教育

AI

开源模型

DeepSeek

闭源模型

AI自主学习

新教育

AI

开源模型

DeepSeek

闭源模型

AI自主学习

丁源森/看着DeepSeek的纷纷扰扰,一个技术宅的无奈

文:丁源森(美国俄亥俄州立大学天体物理学副教授)

上周刚发布R1的时候,媒体还没炸锅,我这个技术宅就异常激动。我兴奋地跟同事分享这个激动人心的消息。作为一个研究者,我期待着明天的世界能有更少的争端,更多的合作。毕竟在科研的世界里,开放和共享才是推动科技进步的原动力。

可惜,事情的发展马上反转。

ADVERTISEMENT

图片来源:美联社,Andy Wong摄
的差别

要理解这次争议,得先聊聊大语言模型在ChatGPT爆火之后形成的两个阵营:开源派和闭源派。开源模型就像是一个共享的工作室,你可以完全掌控里面的工具,想怎么改进就怎么改进,想怎么定制都行。而闭源模型则更像是一个标准化的服务中心,你最多只能在预设的范围内做些调整,毕竟人家是公司,要考虑商业利益。这两派的较量,某种程度上也反映了学术理想和商业现实的博弈。

在开源阵营里,脸书的母公司Meta的羊驼(LLaMA)模型一直是当之无愧的王者,也把技术报告写得很详细让大家参考,即使Meta在各项性能指标上往往比闭源模型慢两三个月。对于“卷到飞起”的领域来说,这个差距确实不小,但已经很了不起了。而且,不管是开源还是闭源的模型,多少都能看到羊驼的影子,这说明开源社区的贡献有多重要。

值得一提的是,开源模型主要是由大学和研究院所的学者在推动,他们秉持着知识共享的理念。虽然因为闭源模型大部分都不公开技术细节,开源模型总是“差那么一点点”。

在这样的背景下,去年年初,DeepSeek开始在学术圈崭露头角。他们选择了开源的道路,定期在arXiv上发表技术文章。他们借鉴了全球开源学术界的智慧,开始了自己的探索。当他们去年中发表第二版模型(v2),世界上的学术研究人员就开始注意到他们的研究成果,互相学习。到了去年12月,当他们发布第三版(v3)模型时,业界普遍认可他们的实力。不管是评测还是实际使用体验,都显示这是个相当厉害的模型。等到R1发布,也让大家意识到这是开源模型第一次在推理能力上能和OpenAI的旗舰模型分庭抗礼。

其实,在开源AI领域,全球都有优秀的团队在默默耕耘。美国的Allen AI研究团队,谷歌的Gemma团队,法国的Mistral AI凭借着精巧的设计和高效的训练方法,展现了欧洲的技术实力。中国除了DeepSeek,还有阿里的通义千问,以及智谱AI等团队都在开源领域贡献力量。这些团队之间存在着广泛的技术借鉴和思想交流。可以说,开源AI是一个你中有我、我中有你的共同体。正是这种开放和共享的精神,推动着整个领域不断进步。

DeepSeek展示一条新路:让AI自主学习

作为一个研究者,DeepSeek,如同上述各个开源团队,不仅发布了模型,还发表了详细的学术报告。他们比较有意思的突破之一,用通俗的话说,就像是在下围棋时发现:与其先让AI学习人类的棋谱再自我提升,不如让它直接学习。这听起来可能很简单,但在当时可是个大胆的想法。就像AlphaGo后来演变成AlphaZero时发现的那样,AI不看人类棋谱可能反而学得更好。

这个发现特别重要,因为在逻辑推理领域,收集“人类棋谱”(也就是标注数据)是非常昂贵的过程。DeepSeek展示了一条新路:直接跳过这个步骤,让AI自主学习。这一点给整个开源学术圈带来了极大启发。基于DeepSeek学术文章提出的技术细节,世界各地的研究者很快就跟进验证,证实这条路确实可行。海内外AI大佬大多都送上了祝福。

美国图灵奖得主、AI大佬Yann LeCun在推特上说到:“DeepSeek正确的解读应该是:‘开源模型正在超越专有(闭源)模型。’DeepSeek受益于开放研究和开源项目(例如Meta的PyTorch和LLaMA)。他们提出了新的想法,并在其他人的工作基础上进行构建。因为他们的工作是公开发表且开源的,所有人都能从中受益。这就是开放科学和开源的力量。”

但随后,舆论的关注点却偏离了技术本身。这让我这个研究者很困惑:首先,DeepSeek确实进入了第一梯队,但第一梯队本来就有不少各国(大部分闭源)公司。作为开源模型,它是可以完全下载到本地部署的,也不需要网络运行,所以有些担忧似乎有点牵强。在媒体的推波助澜和大公司的利益驱使下,原本纯粹的开源科学的胜利变得剑拔弩张。

开源模型的成功对科学的发展是利好的

科教界大佬,斯坦福大学客座教授吴恩达在推特上说:“我在X上看到了许多人对DeepSeek进展的不同解读,就像一个罗夏墨迹测试。”罗夏墨迹测试是心理学界常用的一个隐喻,表示人们往往会将自己的想法、经历和偏见投射到中性物上。

这里从来都不是谁比谁强的事情,而是证明知识共享才是发展的真理。这也是OpenAI顾名思义最初的理想。OpenAI CEO山姆·奥特曼也在最近的访问中重新审视了他们采取闭源的策略。
吴恩达教授还说:“开源模型正在使基础模型层商品化。正如我之前所写,大语言模型的令牌价格一直在快速下降,开源模型助推了这一趋势,并为开发者提供了更多选择。”

这一点在实践中已经得到了印证。现在许多模型即服务(MaaS)公司,都在提供基于开源模型的本地部署服务,以极其实惠的价格出售计算时间。这种模式给很多发展中国家带来了新的机遇。比如对马来西亚这样的国家来说,只要有计算资源,就可以把模型下载下来,出售计算时间,而不必完全依赖闭源模型公司乃至任何一个国家。这种可能性对于马来西亚其实是一个重大利好,只是在当前的争议中似乎没有得到太多关注。

这个发现对我的研究特别有意义。这两年我主要在研究天文领域的AI智能体,探索AI自主完成物理研究的可能性。作为一个追求“平、靓、正”的技术人,我一直在量化评估各种模型在物理问题上的解题能力。这是个新兴的研究方向,而其中他能不能大规模的运用起来,其实和运行模型的成本是最大的考量,所以开源模型的成功对于科学的发展是利好的。

但是同时,可预见的未来里,经过这波洗礼,大语言模型务必会更加廉价,也可能会有更多有能力的人投入到开源工作。而AI对于人类在各行各业的就业的冲击会再次提速,这或许才是更应该被讨论的议题。

可惜的是,这个原本是中性的开源与闭源模型之争,在不同的人群中沉淀了很多偏见的投影。最终受伤的,是那些不分国界、怀抱理想、愿意分享的学术工作者。

也许是做天文研究的缘故,让我的想法太过理想主义。在天文学界,开放共享是常态。想想看,就连美国耗资百亿美元打造的韦伯望远镜,它的观测数据也是可以立即在太平洋彼岸下载的。澳大利亚的、欧洲的、中国的、日本的研究数据,大部分也都是全球共享。

我天真地以为,经过学术工作者这两年的努力,终于可以让AI技术重归学术的纯粹。看着技术讨论变质,我不禁感慨:这个世界终究不可能只由一群有理想的书呆子说了算。

更多相关文章:
【代码之外】丁源森/透视人工智能 机遇与责任同行
【代码之外】丁源森/AI在天文上的神助攻
【代码之外】丁源森/做AI时代里的 六边形战士

打开全文

ADVERTISEMENT

热门新闻

百格视频

ADVERTISEMENT

点击 可阅读下一则新闻

ADVERTISEMENT