迅速逼近ChatGPT!Llama 最新代码生成模型已经直追GPT-4了

在发布开源可商用大模型Llama 2之后,Meta日前正式发布该模型的编程版本Code Llama,极大弥补了之前在代码任务上表现不佳的短板,进一步拉近了与闭源的GPT模型的差距,测试效果直追GPT-4。

值得一提的是,就在Code Llama发布的两天前,OpenAI开放了GPT3.5的微调功能,允许开发者和企业根据自己的需求定制模型。作为目前开源和闭源领域综合实力最强的两个大模型,这不免存在些许你追我赶的竞争意味,甚至是有一丝火药味?

编程作为大语言模型最重要的应用领域之一,也是当前几乎所有技术产品和服务都离不开的,对该能力的优化和改进具有重要意义。

本次发布的Code Llama是在Llama 2的基础上,通过特定的代码数据集进一步训练而来,支持C++、Java、Python、PHP、Typescript(Javascript)、C#和Bash等众多流行语言,依然是开源可商用。

Code Llama对编程专家和初学者都非常有用,无论是用专业的编程语言还是用自然语言(如普通话)来描述编程需求,Code Llama都能理解,并很好地生成相应的代码或与代码相关的解释。这极大降低了开发门槛和效率。

多版本模型覆盖更多特定场景需求

根据Meta的博文,Code Llama分为7B、13B和34B三个不同参数版本,可满足不同的服务和延迟要求。每个版本的模型都使用了500B tokens与代码相关的数据进行训练。

图源:Meta

最小的7B参数模型可以在单个GPU上运行,响应速度快,适用于需要低延迟的任务。但相比更大的模型,在代码生成或理解方面不够精确。最大的34B模型能提供最佳的编码辅助,在复杂的编程任务中表现最好。但需要更多的计算资源,延迟也可能更高。中等规模的13B 参数模型在性能和延迟之间提供了一个平衡点。另外,7B和13B的模型经过了中间填充(fill-in-the-middle,FIM)功能的训练,能够理解如何在一段现有的代码中添加新代码,可以直接用于自动代码补全等任务,无需额外的设置或训练。

Code Llama支持一次性理解并记住最多10万token的上下文,强大的文本处理能力对于处理大型代码库或长篇文章都非常有用。比如,当开发者需要处理大量代码时,可以将整个代码片段一次性“喂”给Code Llama。

值得一提的是,为了满足更多特定需求,Meta还进一步针对Python和自然语言指令微调了两个Code Llama的变体,分别称作Code Llama-Python和Code Llama-Instruct。

Python是目前最受欢迎的编程语言之一,在多个领域有着广泛应用,特别是在数据科学、机器学习等领域。一个专门针对Python的模型能更准确地生成和理解Python代码,提高模型在处理相关任务时的性能。

另一个子版本Code Llama-Instruct更注重理解自然语言指令,非常适合那些不是很熟悉编程但又有这方面需求的用户。这个版本更容易理解用自然语言给出的指令,也就是更适合非专业用户,除了可以用于代码生成,也能胜任其他与代码相关的自然语言处理任务,如代码注释或文档生成。

通过提供更多垂直的子版本,Code Llama模型能够覆盖更广泛的用例和人群,满足不同场景下的特定需求,更容易获得竞争优势。

不过,Meta也有在博文中说明,由于Code Llama更专注于代码任务,因此并不适合作为聊天或写文章等日常语言任务的基础模型,它主要是为了帮助人们编程或处理代码问题而设计的。

性能和安全性双领先

而有关Code Llama的具体性能,在多个代码基准测试中,Code Llama达到了开源模型中最先进的性能。Code Llama所有模型在MultiPL-E上都优于其他公开可用的模型。34B参数版本在HumanEval上得分为53.7%,在MBPP上得分56.2%,这与ChatGPT(GPT 3.5)相当,优于其他所有开放解决方案。

图源:相关论文截图

在安全性上,Meta采取了许多措施,为做评估,研究者特意用一些指令请求恶意代码,测试Code Llama是否会生成不好的输出。并对比ChatGPT做了同样的测试。结果显示,Code Llama更不容易生成有问题或者有害的代码。

Meta还发表了一篇详细介绍Code Llama的论文(题为Code Llama: Open Foundation Models for Code),披露了Code Llama开发的细节以及如何进行基准测试等信息。

值得一提的是,在Meta发布的论文中出现一个名为“Unnatural Code Llama”的模型(见上图),各项评分都非常之高,但该模型只在论文中一闪而过,Meta并未提及,或许后续Code Llama会迎来进一步增强。

更多详细内容可以参看论文:

https://arxiv.org/abs/2308.12950

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/196746

(0)
上一篇 2023年8月26日
下一篇 2023年8月27日

相关推荐

  • 员工挂“罪牌”戴纸托手铐引质疑,80后王云安创立的古茗又“翻车”了

    雷达财经鸿途出品 文|莫恩盟 编|深海 员工头挂“罪牌”、手戴形似手铐纸托的视频,将头部茶饮品牌古茗推至舆论的风口浪尖。被不少网友指责不尊重员工的舆论不断发酵后,古茗通过官方账号进行致歉:“对不起,我们玩梗…

    专栏 46分钟前
    7.1K
  • 精准学发布全球首个超拟人一对一AI老师

    作者:曾响铃 9月19日,在2024云栖大会上,一位可以给学生做学习计划、根据知识点讲课、能够培养和纠正学习习惯和方法的老师引起了巨大关注。与普通老师不同的是,这是一位依托于AI技术诞生的“超拟人AI一对一老师”…

    专栏 46分钟前
    7.0K
  • Gen.G与迪桑特合作发布新队服

    全球电子竞技公司Gen.G Esports宣布将携手运动品牌迪桑特推出2024英雄联盟全球总决赛(世界赛)纪念队服。这是迪桑特与电竞的首次跨界合作。由短袖队服和夹克组成的这套队服以白色为主,金色线条表现Gen.G LOGO,中间…

    发现 46分钟前
    6.2K
  • Gen.G与迪桑特合作发布新队服

    全球电子竞技公司Gen.G Esports(Gen.G)宣布将携手运动品牌迪桑特推出2024英雄联盟全球总决赛(世界赛)纪念队服。这是迪桑特与电竞的首次跨界合作,不仅为Gen.G征战2024世界赛提供支持,还设计了饱含对比赛信心和…

    发现 46分钟前
    5.4K
  • 国际商会发布第11版《广告和营销传播准则》

    全球最大的商业协会国际商会(ICC)呼吁广告商和营销商在面临行业混乱和自律挑战时,率先倡导健全的道德标准。ICC发布了《广告和营销传播准则》第11版,该准则85年来一直是全球广告行业自律的支柱。ICC指出,所有参与…

    发现 46分钟前
    6.0K
  • Cambrex新技术显著降低成本与环境影响

    Cambrex旗下公司Snapdragon Chemistry已成功开发出一种新型液相多肽合成 (LPPS) 技术,该技术利用传统的活性药物成分 (API) 批量反应器和连续流,避免了对专用固相反应器的依赖。与标准固态肽综合工艺相比,这种新…

    发现 46分钟前
    6.2K
  • 乐高与F1达成长期合作

    乐高集团与一级方程式赛车(F1)宣布建立新的长期战略合作伙伴关系,合作将从2025年F1赛季开始。此次合作将乐高积木拼搭的乐趣和F1的速度与激情巧妙融合,旨在将这项激动人心的运动带给全球更多家庭,让创新、技术与…

    发现 46分钟前
    5.5K
  • 普渡机器人发布初代类人形机器人PUDU D7

    9月19日,全球服务机器人领军企业普渡机器人发布其初代类人形机器人PUDU D7。基于仿生双臂和全向移动底盘设计,PUDU D7能够在多个场景中执行复杂任务操作,更好地满足跨行业客户的多样化需求。PUDU D7由普渡X实验室…

    发现 46分钟前
    5.6K
  • 欧洲首家锂精炼厂落成

    原材料公司AMG在德国Bitterfeld为欧洲首家锂精炼厂举行了落成典礼。该厂旨在帮助欧洲大陆提高电动汽车电池生产的独立性。Bitterfeld的新工厂是氢氧化锂精炼厂,每年将生产20,000吨氢氧化锂,供应匈牙利和波兰的正极…

    发现 46分钟前
    4.3K
  • TÜV莱茵与SID China启动显示行业新工作组

    TÜV莱茵与SID China共同发起的“显示产业链碳排放分析和计算方法工作组”和“独立第三方检测实验室工作组”正式成立。两个工作组旨在汇聚业界专家智慧,推进基础研究和技术交流,为显示行业发展提供有针对性的解决方案…

    发现 46分钟前
    5.2K

发表回复

登录后才能评论