Google DeepMind 学者研发Focused Transformer ,扩展大模型输出长度限制

品玩7月11日讯,据 Arxiv 页面显示,Google DeepMind 研究团队近日联手华沙大学和波兰科学院等机构,研发一项名为 Focused Transformer 的技术。

Focused Transformer 技术旨在通过对比训练来扩展上下文长度的方法,可以用于大型语言模型。Focused Transformer 技术通过对比训练来增强 (key, value) 空间的结构,从而扩展了上下文长度。这项技术使得已经预训练的大型语言模型可以被重新训练来延长它们的有效上下文。

论文显示,研究团队使用一款名为 LongLLaMA 的大模型进行测试。经过实验,研究团队已经成功使用 LongLLaMA 模型在密码检索任务中实现了256K的上下文长度。

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/172049

(0)
上一篇 2023年7月11日
下一篇 2023年7月11日

相关推荐

发表回复

登录后才能评论