DeepMind发布新语言模型:性能大幅提升
2024-12-28 13:15:42来源:www.luwei123.com发布:二蛋
谷歌DeepMind团队最新推出了一种名为“可微缓存增强”的新方法,用于提升大型语言模型的推理性能。这种方法不需要增加过多计算负担,在不明显提高延迟的情况下,可以显著改善大语言模型的响应准确性和上下文相关性。
当前提高大语言模型性能的方法通常涉及在任务处理期间生成中间步骤,但这会导致计算效率低下。而"可微缓存增强"利用了一个经过训练的协处理器来丰富大语言模型内部记忆,并保持基础大语言模型冻结状态。整个流程分为三个阶段:首先从输入序列生成key-value缓存,然后协处理器使用可训练软令牌处理该缓存并生成潜在嵌入,最后增强后的key-value缓存反馈给大语言模型以生成更丰富的输出。
在Gemma-2 2B模型上进行测试结果显示,“可微缓存增强”方法在多个基准测试中取得了显著成果。例如,在GSM8K数据集上准确率提高了10.05%,在MMLU上性能提升了4.70%。此外,该方法还降低了模型在多个标记位置的困惑度。
这项研究为增强大语言模型的推理能力提供了新的思路。通过引入外部协处理器来增强key-value缓存,研究人员可以在保持计算效率的同时显著提高大语言模型的性能,为处理更复杂的任务奠定了基础。
综上所述,"可微缓存增强"是一种创新且有效的技术,在大语言模型领域具有重要价值,并为未来发展带来了更多可能性。
上一篇: 小米董明珠:感谢格力隔段时间就帮我们宣传一次 下一篇: 最后一篇
相关阅读
- 12-28 小米董明珠:感谢格力隔段时间就帮我们宣传一次
- 12-28 啥都别说了 老婆们 快给男人大腿上画个草莓 打开《代笔工房》
- 12-28 超赞!Xbox 新一代手柄将配备动态触觉反馈技术
- 12-28 智界新S7冰雪续航实测:零下20℃跑626km
- 12-28 双侧贯穿式大灯造型犀利 捷豹SUV谍照再曝光
- 12-28 微软Game Pass云串流突发故障:XBOX不可替代
- 12-28 机械革命无界14N笔记本开启预售,最高可领9999元红包
- 12-28 松下承认空调数据造假 668台落地式商用空调不合格
- 12-28 智界新S7低温区续航实测,纯电车北方也能放心开
- 12-28 国产全新双核智能穿戴芯片性能翻倍 功能丰富
- 12-28 魅族手机要做回来了?
- 12-28 Epic神秘游戏免费送 开启第九日《风火轮:爆发》