新大模型专为编程而来

2023-06-22 19:52:35 | 来源:机器之心


【资料图】

机器之心报道

编辑:陈萍

开源 LLM 的性能越来越好了。

最近一段时间,随着大语言模型(LLM)的不断发布,LLM 排位赛也变得火热起来,研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。
在这当中,斯坦福发布的全新大语言模型排行榜 AlpacaEval 比较出圈,它是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。
前段时间,来自微软的华人团队发布的 WizardLM(是一个经过微调的 7B LLaMA 模型)在一众模型中获得第四名的好成绩,排在其前面的分别是 GPT-4、Claude 以及 ChatGPT,可见,WizardLM 成绩还是很能打的。
近日,WizardLM 团队又发布了新的 WizardCoder-15B 大模型。至于原因,该研究表示生成代码类的大型语言模型(Code LLM)如 StarCoder,已经在代码相关任务中取得了卓越的性能。然而,大多数现有的模型仅仅是在大量的原始代码数据上进行预训练,而没有进行指令微调。因而该研究提出了 WizardCoder,它通过将 Evol-Instruct(该方法生成具有不同难度级别的指令)方法应用于代码领域,为 Code LLM 提供复杂的指令微调。
在 HumanEval、HumanEval+、MBPP 以及 DS1000 四个代码生成基准测试中,WizardCoder 在很大程度上超过了所有其他开源 Code LLM。此外,WizardCoder 在 HumanEval 和 HumanEval + 上的表现甚至超过了最大的闭源 LLM,如 Anthropic 的 Claude 和谷歌的 Bard。
论文地址:/pdf/
代码地址:/nlpxucan/WizardLM
在方法上,该研究表示受到 WizardLM 提出的 Evol-Instruct 方法的启发,除此以外,该研究还尝试将代码指令变得更加复杂,以提高代码预训练大模型的微调效果。
在代码生成领域,统一的代码 prompt 模板如下:
本文使用的五种类型如下:
该研究采用以下过程来训练 WizardCoder。最初,他们使用 StarCoder 15B 作为基础,并使用代码指令 - 跟随(code instruction-following)训练集对其进行微调,该训练集通过 Evol-Instruct 进化而来。微调 prompt 格式概述如下:
WizardCoder 性能如何?
与闭源模型的比较。用于代码生成的 SOTA LLM,如 GPT4、Claude 和 Bard,主要是闭源的。然而获得这些模型 API 的访问权限难度很大。该研究采用另一种方法,从 LLM-Humaneval-Benchmarks 中检索 HumanEval 和 HumanEval + 的分数。如下图 1 所示,WizardCoder 位列第三,超过了 Claude-Plus( vs )和 Bard( vs )。
值得注意的是,与这些模型相比,WizardCoder 模型大小要小得多。此外,WizardCoder 比其他经过指令微调的开源 LLM 表现出更显著的优势。
与开源模型的比较。表 1 在 HumanEval 和 MBPP 基准上对 WizardCoder 与其他开源模型进行了全面的比较。表 1 结果表明,WizardCoder 比所有开源模型都具有显著的性能优势。
总结而言,从图 1 和表 1 的实验结果中,可以得出以下结论:
WizardCoder 的性能优于最大的闭源 LLM,包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA,尽管它要小得多。
WizardCoder 比所有的开源 Code LLM 都要好,包括 StarCoder、CodeGen、CodeGee 以及 CodeT5+。
WizardCoder 显著优于所有具有指令微调的开源 Code LLM,包括 InstructCodeT5+, StarCoder-GPTeacher 和 Instruct-Codegen-16B。
下图为不同模型在 DS-1000 基准上的结果:

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@

上一篇 下一篇

相关新闻

新大模型专为编程而来

全球今亮点!小猫咪大城市demo版配置详情

当前热议!闹市街头,这名央企00后党员作了这个抉择

当前播报:冒险岛天使的祝福戒指(冒险岛天使的祝福)

环球最资讯丨好的美术画室培训_好的美术画室

第七史诗水属性角色外号昵称详解攻略-全球即时看

最资讯丨经观带你拿offer!6月25日参加新闻与传播学院双选会专场,就业、实习全都有!

重点聚焦!聚合硫酸铁液体商品报价动态(2023-06-22)

世界观速讯丨摩根士丹利分析师:特斯拉超级充电站网络价值超过1000亿美元

纹嘴唇恢复过程_纹嘴唇恢复过程图

地铁5、6、9号线运行图6月22日起调整

焦点播报:天天热议:如何办理一般强制执行立案

激扬青春梦想 闪耀青春光芒——共青团十九大解放军和武警部队代表风采录

富大龙十部经典电视剧_没想到最穷影帝

可口的披萨美味的披萨第四章怎么过 美味的披萨怎么进入第三章 热消息

最新新闻

新大模型专为编程而来

全球今亮点!小猫咪大城市demo版配置详情

当前热议!闹市街头,这名央企00后党员作了这个抉择

当前播报:冒险岛天使的祝福戒指(冒险岛天使的祝福)

环球最资讯丨好的美术画室培训_好的美术画室

第七史诗水属性角色外号昵称详解攻略-全球即时看

最资讯丨经观带你拿offer!6月25日参加新闻与传播学院双选会专场,就业、实习全都有!

重点聚焦!聚合硫酸铁液体商品报价动态(2023-06-22)

世界观速讯丨摩根士丹利分析师:特斯拉超级充电站网络价值超过1000亿美元

纹嘴唇恢复过程_纹嘴唇恢复过程图

地铁5、6、9号线运行图6月22日起调整

焦点播报:天天热议:如何办理一般强制执行立案

激扬青春梦想 闪耀青春光芒——共青团十九大解放军和武警部队代表风采录

富大龙十部经典电视剧_没想到最穷影帝

可口的披萨美味的披萨第四章怎么过 美味的披萨怎么进入第三章 热消息

Redmi K60 Ultra关键参数敲定:1.5K直屏+天玑9200+芯片 动态焦点

今日热搜:上海环境(601200):6月21日北向资金增持13.43万股

杰瑞股份终止境外发行全球存托凭证事项

每日观点:亚联财小额信贷 亚联财小额信贷公司)

24小时客服在线咨询_韵达快递客服人工在线 今日要闻

慌张的反义词和近义词_慌张的反义词

苹果宣布WWDC20Swift学生挑战赛获奖者-天天微头条

德国指控谷歌汽车服务垄断:将禁止捆绑行为|热资讯

世界看热讯:win10小锐wifi连不上 小锐wifi开启失败

为什么有的茶叶很苦有的不苦呢 全球新要闻

全球观速讯丨张作霖简介生平(张作霖简介)

河南天壕新能拟北交所IPO 募资3亿元 全球讯息

因赛集团:拟定增募资不超6.45亿元 用于营销AIGC大模型研发与应用等项目

金融BPO行业市场如何?金融BPO行业市场深度调研报告-世界热议

范敬宜文集:敬宜笔记_关于范敬宜文集:敬宜笔记的简介