迅速逼近ChatGPT！Llama 最新代码生成模型已经直追GPT-4了

• 2023年8月26日下午8:21 • 发现 • 阅读 96

在发布开源可商用大模型Llama 2之后，Meta日前正式发布该模型的编程版本Code Llama，极大弥补了之前在代码任务上表现不佳的短板，进一步拉近了与闭源的GPT模型的差距，测试效果直追GPT-4。

值得一提的是，就在Code Llama发布的两天前，OpenAI开放了GPT3.5的微调功能，允许开发者和企业根据自己的需求定制模型。作为目前开源和闭源领域综合实力最强的两个大模型，这不免存在些许你追我赶的竞争意味，甚至是有一丝火药味？

编程作为大语言模型最重要的应用领域之一，也是当前几乎所有技术产品和服务都离不开的，对该能力的优化和改进具有重要意义。

本次发布的Code Llama是在Llama 2的基础上，通过特定的代码数据集进一步训练而来，支持C++、Java、Python、PHP、Typescript（Javascript）、C#和Bash等众多流行语言，依然是开源可商用。

Code Llama对编程专家和初学者都非常有用，无论是用专业的编程语言还是用自然语言（如普通话）来描述编程需求，Code Llama都能理解，并很好地生成相应的代码或与代码相关的解释。这极大降低了开发门槛和效率。

Table of Contents

多版本模型覆盖更多特定场景需求

根据Meta的博文，Code Llama分为7B、13B和34B三个不同参数版本，可满足不同的服务和延迟要求。每个版本的模型都使用了500B tokens与代码相关的数据进行训练。

图源：Meta

最小的7B参数模型可以在单个GPU上运行，响应速度快，适用于需要低延迟的任务。但相比更大的模型，在代码生成或理解方面不够精确。最大的34B模型能提供最佳的编码辅助，在复杂的编程任务中表现最好。但需要更多的计算资源，延迟也可能更高。中等规模的13B 参数模型在性能和延迟之间提供了一个平衡点。另外，7B和13B的模型经过了中间填充（fill-in-the-middle，FIM）功能的训练，能够理解如何在一段现有的代码中添加新代码，可以直接用于自动代码补全等任务，无需额外的设置或训练。

Code Llama支持一次性理解并记住最多10万token的上下文，强大的文本处理能力对于处理大型代码库或长篇文章都非常有用。比如，当开发者需要处理大量代码时，可以将整个代码片段一次性“喂”给Code Llama。

值得一提的是，为了满足更多特定需求，Meta还进一步针对Python和自然语言指令微调了两个Code Llama的变体，分别称作Code Llama-Python和Code Llama-Instruct。

Python是目前最受欢迎的编程语言之一，在多个领域有着广泛应用，特别是在数据科学、机器学习等领域。一个专门针对Python的模型能更准确地生成和理解Python代码，提高模型在处理相关任务时的性能。

另一个子版本Code Llama-Instruct更注重理解自然语言指令，非常适合那些不是很熟悉编程但又有这方面需求的用户。这个版本更容易理解用自然语言给出的指令，也就是更适合非专业用户，除了可以用于代码生成，也能胜任其他与代码相关的自然语言处理任务，如代码注释或文档生成。

通过提供更多垂直的子版本，Code Llama模型能够覆盖更广泛的用例和人群，满足不同场景下的特定需求，更容易获得竞争优势。

不过，Meta也有在博文中说明，由于Code Llama更专注于代码任务，因此并不适合作为聊天或写文章等日常语言任务的基础模型，它主要是为了帮助人们编程或处理代码问题而设计的。

性能和安全性双领先

而有关Code Llama的具体性能，在多个代码基准测试中，Code Llama达到了开源模型中最先进的性能。Code Llama所有模型在MultiPL-E上都优于其他公开可用的模型。34B参数版本在HumanEval上得分为53.7%，在MBPP上得分56.2%，这与ChatGPT（GPT 3.5）相当，优于其他所有开放解决方案。

图源：相关论文截图

在安全性上，Meta采取了许多措施，为做评估，研究者特意用一些指令请求恶意代码，测试Code Llama是否会生成不好的输出。并对比ChatGPT做了同样的测试。结果显示，Code Llama更不容易生成有问题或者有害的代码。

Meta还发表了一篇详细介绍Code Llama的论文（题为Code Llama: Open Foundation Models for Code），披露了Code Llama开发的细节以及如何进行基准测试等信息。

值得一提的是，在Meta发布的论文中出现一个名为“Unnatural Code Llama”的模型（见上图），各项评分都非常之高，但该模型只在论文中一闪而过，Meta并未提及，或许后续Code Llama会迎来进一步增强。

更多详细内容可以参看论文：

https://arxiv.org/abs/2308.12950

原创文章，作者：，如若转载，请注明出处：https://knewsmart.com/archives/196746

0 0 打赏

微信扫一扫

关于作者

0 文章

0 评论

粉丝

iOS微信回消息可以不用退出其他页面

上一篇 2022年7月20日下午6:56

Cocos 宣布国内首家支持任天堂 Switch 平台

下一篇 2022年7月20日下午6:56

发现

第三代元PLUS 11.99万元起正式上市全系搭载第二代刀片电池及闪充技术

5月21日，比亚迪第三代元PLUS正式上市，官方指导价11.99万-14.99万。新车定位元力智趣闪充SUV，凭借全能产品力契合元气青年、年轻家庭与科技实用派的多元出行需求，以全球车品质与年轻姿态解锁高品质纯电出…

新智派
2026年5月21日
4.9K
发现

人均16本？2026全国职场人阅读调查来了！

本雅明在一百年前写下过一个诊断：我们生活在一个体验超载的时代，但内心却感到贫乏，似乎没什么能真正沉淀下来。他把那种可传承、能生根的深厚经验称为“Erfahrung”，而把那些孤立的、转瞬即逝的刺激称为“Erlebnis…

新智派
2026年4月27日
14.2K
发现

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

一壶武夷岩茶，升腾起连接东西方的氤氲热气。近日，《哈萨比斯：谷歌AI之脑》作者塞巴斯蒂安·马拉比，与华为管理顾问田涛展开了一场深度对话，整整2个小时，围绕人类“重构巴别塔”的雄心与野心，两位观察家在茶香中…

新智派
2026年4月20日
11.1K
发现

为什么我们还要读书？世界总有答案

OpenClaw能打开浏览器、查资料、写邮件、填表格——像一个不睡觉的实习生。 Gemini CLI能一口气吞下整个代码库，三秒钟给你一份精准的优化建议。 MGIE动动嘴就能修图，连软件都不用打开。 2026年，这些AI智能体不再是…

新智派
2026年4月20日
7.6K
发现

博世舒适科技日立冷热科技亮相中国制冷展，以绿色与智能引领行业升级

北京2026年4月17日 /美通社/ -- 在2026中国制冷展期间，博世舒适科技集团日立冷热科技集中展示了覆盖压缩机、空调系统及大型机组在内的全系列产品与解决方案。围绕绿色低碳与智能化发展趋势，公司正加快由单一设备…

新智派
2026年4月17日
3.2K
新智•新速•新未来｜OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式圆满举行

北京2026年4月17日 /美通社/ -- 2026年4月16日，"OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式"圆满举行。本次会议汇聚行业认证机构、核心技术伙伴及生态厂商，共同见证新一代工业控制技术的诞…

新智派
发现 2026年4月17日
5.6K
以责任赋能发展以初心传递温度 -- 中通快递正式发布 2025 年度可持续发展报告

上海2026年4月17日 /美通社/ -- 2026年4月17日，中国行业领先且快速成长的快递公司中通快递（开曼）有限公司（纽交所代码：ZTO及香港联交所代号：2057）（"中通"或"公司"）正式发布了2025年度可持续发展报告。这是…

新智派
发现 2026年4月17日
10.7K
水隐之触悦然心生 GROHE SPA水悦淋浴系统耀世登场

设计美学：采用高特朗水悦恒温控制面板，内嵌式按钮设计让科技隐于无形。核心技术：模块化创新设计搭配SmartControl控温技术，一键精准调控个性化组合。感官体验：宽大的顶洒与情绪调频式手持花洒结合，打造沉浸…

新智派
发现 2026年4月17日
3.0K
雅诗兰黛集团连续第六年参展中国国际消费品博览会，彰显深耕海南的长期承诺

海口2026年4月17日 /美通社/ -- 作为世界领先的优质护肤品、彩妆、香水和护发产品的制造商与营销商，雅诗兰黛集团连续第六年亮相中国国际消费品博览会（以下简称"消博会"）。围绕"重塑美妆新境，焕启致美之旅"的主…

新智派
发现 2026年4月17日
3.2K
发现

毛源昌眼镜亮相消博会，向世界讲述中华老字号新故事

杭州2026年4月17日 /美通社/ -- 4月13日-18日，第六届中国国际消费品博览会在海南海口举行。毛源昌眼镜作为商务部首批认定的"中华老字号"受邀参展，在老字号"镇店之宝"专题展示区，向全球客商呈现百年品牌的文化底…

新智派
2026年4月17日
2.7K