马斯克推Grok 3后 DeepSeek推出NSA加速推理



(北京18日综合电)人工智慧(AI)大战愈演愈烈,继美国科技富豪马斯克发布最新版AI聊天机器人Grok 3后,中国深度求索(DeepSeek)也宣布推出用于超快速长文本训练与推理的“原生稀疏注意力”(Native Sparse Attention,简称NSA)。
据中国媒体第一财经报道,DeepSeek官方周二在海外社交平台X上发布了一篇纯技术论文报告,主要内容是关于“原生稀疏注意力”。据官方介绍,这是一种用于超快速长文本训练与推理、硬体对齐且可原生训练的稀疏注意力机制。
ADVERTISEMENT
报告宣称,NSA针对现代硬体进行了优化设计,能加速推理过程,同时降低预训练成本,且不牺牲性能。NSA在通用基准测试、长文本任务和基于指令的推理,均能达到或超越全注意力模型的表现。NSA为提高效率同时保持模型能力提供了一个有前景的方向。
在这篇名题为《原生稀疏注意力:硬体对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也是共同作者。
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT
