星洲网
星洲网
星洲网 登入
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

国际

|

即时国际

发布: 11:43am 19/02/2025

AI聊天机器人

DeepSeek

Grok 3

原生稀疏注意力

AI聊天机器人

DeepSeek

Grok 3

原生稀疏注意力

马斯克推Grok 3后 DeepSeek推出NSA加速推理

马斯克推Grok 3后 DeepSeek推出NSA加速推理
图为中国深度求索标志。(中央社档案照)

(北京18日综合电)人工智慧(AI)大战愈演愈烈,继美国科技富豪马斯克发布最新版后,中国深度求索()也宣布推出用于超快速长文本训练与推理的“”(Native Sparse Attention,简称NSA)。

据中国媒体第一财经报道,DeepSeek官方周二在海外社交平台X上发布了一篇纯技术论文报告,主要内容是关于“原生稀疏注意力”。据官方介绍,这是一种用于超快速长文本训练与推理、硬体对齐且可原生训练的稀疏注意力机制。

ADVERTISEMENT

报告宣称,NSA针对现代硬体进行了优化设计,能加速推理过程,同时降低预训练成本,且不牺牲性能。NSA在通用基准测试、长文本任务和基于指令的推理,均能达到或超越全注意力模型的表现。NSA为提高效率同时保持模型能力提供了一个有前景的方向。

在这篇名题为《原生稀疏注意力:硬体对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也是共同作者。

ADVERTISEMENT

热门新闻

百格视频

ADVERTISEMENT

点击 可阅读下一则新闻

ADVERTISEMENT