DeepSeek-R1登上《自然》期刊 训练成本不到千万



(杭州19日中央电)最新一期《自然》期刊收录的《 DeepSeek-R1 透过强化学习激励大型语言模型推》的论文显示,DeepSeek-R1 的训练成本仅29.4万美元(约123万令吉)。
论文由 DeepSeek(深度求索)公司团队完成、DeepSeek 创办人梁文锋担任通讯作者,18日刊发在《自然》期刊上。这一期封面即以AI的自我学习和改良为主题,相关论文登上,是首个通过同行评议的主要大型语言模型(LLM)。
ADVERTISEMENT
界面新闻报导,这篇新版 DeepSeek-R1 论文,与今年1月未经同行评审的预印本有较大差异,作者根据评审意见增加了模型训练的技术细节说明,包括模型训练数据类型和安全性考虑等,并回应了先前关于知识“蒸馏”的质疑。
据报导,DeepSeek 明确否认了先前关于其使用OpenAI模型输出进行训练的质疑。
DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的数据全部来自网际网路,虽然可能包含GPT-4生成的结果,但绝非有意而为之,也没有专门的蒸馏环节。
为了防止基准测试数据污染,对 DeepSeek-R1 的预训练和后训练数据都实施了全面的去污染措施。
DeepSeek-R1 的核心创新在于采用了“纯强化学习”这一自动化试错方法,R1 透过奖励模型达到正确答案的行为来学习推理策略,而非传统模仿人类预设的推理模式。
DeepSeek 团队还首次公开了R1训练成本仅为29.4万美元,即使加上约600万美元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。
《自然》期刊认为,随著AI技术日渐普及,大型语言模型厂商们无法验证的宣传可能对社会带来真实风险。依靠独立研究人员进行的同行评审,是抑制AI行业过度炒作的一种有效方式。
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT
