首页 >资讯 > > 正文

训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式

新智元 2023-07-28 14:52:27

新智元报道

编辑:好困

【新智元导读】最近,来自马里兰、三星和南加大的研究人员提出了一种利用LLM自动识别和删除低质量数据的数据选择策略——AlpaGasus,不仅在测试中优于原始的Alpaca,而且训练速度更快。


(资料图)

近期,指令微调(IFT)已经被作为预训练大语言模型(LLMs)获得指令遵循能力的关键训练阶段。

然而,广泛使用的IFT数据集(例如,Alpaca的52k数据)却包含许多质量低下的实例,这些实例带有错误或无关的回应,对IFT产生了误导和不利影响。

先前的处理方法主要依靠人工筛选这些低质量数据,但这既费时费力,又难以扩展。

因此,如何以高效、自动化的方式过滤出这些低质量数据,成为提升LLM微调效果的关键所在。

现在,来自马里兰大学,三星和南加大的研究人员提出了一种有效的数据过滤策略,使用强大的LLM(例如,ChatGPT)自动识别和移除低质量数据,以改善指令微调(IFT)的效果。

论文地址:https://arxiv.org/abs/2307.08701

项目地址:https://lichang-chen.github.io/AlpaGasus/

在这项工作中,研究者提出的模型AlpaGasus,使用从52k Alpaca数据中过滤出来的9k高质量数据进行微调。

AlpaGasus在多个测试集上显著优于原始的Alpaca,其13B版本甚至在测试任务上的表现超过了90%的教师模型(即,Text-Davinci-003)。

并且,AlpaGasus在训练时间上也实现了5.7倍的提升,将7B版本的训练时间从80分钟缩短到了14分钟。

更少数据,训练更强「羊驼」

具体来说,研究者利用强大的LLM(如ChatGPT)自动评估每个(指令,输入,回应)元组的质量,对输入的各个维度如Accurac、Helpfulness进行打分,并过滤掉分数低于阈值的数据。

打分的prompt如下:

方法的pipeline如下:

实验部分

在实验部分,作者使用了一组全面且多样化的测试集对他们提出的语言模型AlpaGasus进行了评估。

这个全面的评估集包含了来自Self-instruct、Vicuna、WizardLM和Koala的测试集。每一个测试集都提供了不同的指令,减少了评估偏差,提供了对AlpaGasus性能的全面概述。

作者们将AlpaGasus与四种最近的LLMs进行了比较:Alpaca、Text-Davinci-003、ChatGPT和Claude。

性能评估

对于性能的评估,作者们采用了GPT-4作为裁判来评估和比较不同模型对一组指令的回复。

为了解决GPT-4裁判的位置偏差,作者们对两种顺序(即,将AlpaGasus的回复置于基线模型的回复之前/之后)都进行了尝试,最终得分基于两次得分的「胜-平-负」准则。

结果分析

在结果部分,作者强调——数据的质量比数量更重要。

这一点通过AlpaGasus-9k与AlpaGasus-52k在所有测试集上的优异表现得到了证明,尽管前者使用的训练数据明显少于后者。

作者还将AlpaGasus-9k和使用从Alpaca数据集中随机挑选出9k数据训练的模型进行了对比。

为了研究阈值对IFT的影响,作者比较了AlpaGasus和在应用较低阈值(4.0)选出的39k数据上微调的LLaMA。

结果显示,只用9k高质量数据训练的模型会显著好于用39k质量一般数据训练的模型。

消融实验部分,作者从选出训练AlpaGasus的9k数据中随机抽取3k和6k数据,并使用相同的训练脚本从LLaMA微调两个AlpaGasus的变体。

在所有四个测试集上,AlpaGasus在9k数据上的训练表现最好,这表明更多的高质量数据会导致更好的IFT模型。

细节评估

此外,作者还对AlpaGasus模型在WizardLM和Vicuna测试集的各项技能/类别进行了细致的评估。

首先,作者比较了AlpaGasus-7B(9k)和Alpaca-7B(52k)在WizardLM测试集上的表现。

结果显示,AlpaGasus在29项技能中的22项上表现得比Alpaca好或相同,但在剩余的7项技能,例如编程(如代码生成)方面,AlpaGasus并未表现出优势。

作者发现,这可能是由于在数据选择和过滤过程中,没有指定技能类别的比例,导致与编程相关的数据被过滤的比例(88.16%)比平均过滤比例(82.25%)高很多。因此,这导致编程技能比其他技能弱。

也就是说,在IFT中,保持训练数据在不同类别之间的多样性和平衡性非常重要。

接下来,作者进一步比较了AlpaGasus-13B(9k)和Alpaga-13B(52k)在WizardLM测试集上的表现。

其中,结果与7B模型的观察结果一致,AlpaGasus在大多数技能上仍然优于Alpaca。

这表明,即使模型大小增加,数据质量仍然优于数据量。

在对Vicuna测试集的分析中,AlpaGasus-7B在大多数类别上,包括反事实、角色扮演、知识和通用等方面,都优于Alpaca-7B。而且,当基模型规模扩大时,这一结论仍然成立。

然后,作者比较了AlpaGasus、text-Davinci-003、ChatGPT和Claude。结果显示,AlpaGasus-13B可以达到其教师模型text-Davinci-003 (text-Davinci-003被用来生成Alpaca-52k指令数据) 的90%的能力.

成本节约

在成本节约部分,作者比较了AlpaGasus和Alpaca的训练成本,考虑到在AWS上所需的计算费用。

对于7B模型,使用9k数据的AlpaGasus的训练成本为4.78美元,使用52k数据的Alpaca的训练成本为27.31美元。

对于13B模型,使用9k数据的AlpaGasus的训练成本为40.96美元,而使用52k数据的Alpaca的训练成本为225.28美元。

这显示出,作者的数据选择策略在模型规模扩大时,可以带来更显著的训练成本节约。

总结

本文提出的数据过滤方法在可扩展性和自动化方面表现出显著的优势,证明了精心管理训练数据质量可以带来IFT性能的显著提升以及计算成本的大幅节省。

数据选择和评估策略也可以广泛应用于其他的指令微调数据集和LLMs,为大语言模型的实际部署开辟了新的研究方向。

参考资料:

https://arxiv.org/abs/2307.08701

上一篇:鸿钧老祖师傅 鸿钧老祖的师傅创始元灵简介 下一篇:最后一页
x
推荐阅读

训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式

2023-07-28

鸿钧老祖师傅 鸿钧老祖的师傅创始元灵简介

2023-07-28

港股银行股持续走高 郑州银行涨超3%

2023-07-28

《雾境序列》基地升级方法

2023-07-28

港股午评:恒生科技指数涨2.16%,中资券商股、内险股大涨

2023-07-28

美媒:美国前总统特朗普面临司法部新指控

2023-07-28

降首付、降利率、认房不认贷……住建部最新表态对楼市影响几何?

2023-07-28

精锻科技(300258):技术指标出现看涨信号-KDJ 低位金叉(07-28)

2023-07-28

郑州市汇城社区:擦亮文明金招牌 让居民幸福感升级

2023-07-28

上半年国内旅游总人次同比增长超六成 文旅消费强劲复苏

2023-07-28

市人大常委会公告

2023-07-28

总投资2.13亿元!忻城县木材家具项目集中开竣工

2023-07-28

福尔摩斯的“中国之旅”

2023-07-28

上古卷轴4秘籍 上古卷轴秘籍代码大全)

2023-07-28

广东金融总量指标保持两位数增长

2023-07-28

忆往昔!卡塞米罗晒典礼中场&安切洛蒂合影:重逢

2023-07-28

吉林一男子带孩子吃烧烤要求不放辣,商家竟在小票上备注侮辱文字,商家回应:已道歉

2023-07-28

预定利率3.5%寿险产品下架在即 高预定利率产品推高寿险保费收入

2023-07-28

完全针对UZI?WE大错特错,UZI一手卢锡安压爆大舅子

2023-07-27

2023光影扬州音乐节每人可以买几张门票

2023-07-27

爱旭股份: 2023年限制性股票与股票期权激励计划激励对象名单(授予日)

2023-07-27

美国警察命令警犬咬举起双手黑人司机,被解雇

2023-07-27

中国进出口银行原专职评审委员李济臣涉嫌严重违纪违法被查

2023-07-27

万里马:子公司续签欧珀莱化妆品网络销售合同

2023-07-27

普京:俄罗斯与非洲贸易额在制裁背景下增长约35%

2023-07-27

湖媒解析佩总已为詹皇离开做准备:续约AD为首步 明夏找寻LBJ替身

2023-07-27

辽宁:开展抗洪消防演练 夯实度汛坚实基础

2023-07-27

自感应电动人造肌肉面世

2023-07-27

民呼我应丨公交车道有俩坑 过路车辆很受伤 接到反映后市交通运输局福田管理局立即对破损的路面进行修复

2023-07-27

激战2黑狮武器兑换券(dnf武器兑换券怎么用)

2023-07-27

小冠花适合在什么环境下生长?如何种植?

2023-07-27

内衣和女装店可以合并吗(女士内衣男士内衣家居服类目下重复铺货)

2023-07-27

长江大学同等学力申硕研修班好不好?

2023-07-27

凤凰县出台“双百双千”工作机制 跑出为企纾难解困“加速度”

2023-07-27

基金销售业务部门负责人未取得基金从业资格 温州银行被责令改正

2023-07-27

盛夏露珠晶莹剔透

2023-07-27

十四届全国人大常委会第四次会议7月25日举行

2023-07-27

干点体力活能强肾

2023-07-27

国产首艘大型邮轮成功完成首次试航

2023-07-27

日媒又放风:日本对华出口食品正面临通关延迟

2023-07-27

氧气突然消失,高等生物全军覆没,微生物重新成为地球的主宰?

2023-07-27

河北7家企业入选2023年农业国际贸易高质量发展基地

2023-07-27

《不设限毕业礼》温暖收官

2023-07-27

上半年各地优化楼市政策超300次 精准调控意向更加凸显

2023-07-12

天宇股份:林洁累计被质押股份2430万股

2023-07-12

成都大运会中国大学生体育代表团成立

2023-07-12

襄阳轴承(000678):该股换手率大于8%(07-12)

2023-07-12

沪深股通|长亮科技7月11日获外资卖出0.04%股份

2023-07-12

保利联合(002037)7月11日主力资金净卖出1796.95万元

2023-07-12

雪峰科技股东户数减少207户,户均持股15.61万元

2023-07-12

俄媒称乌军开始使用集束弹药 乌暂无回应

2023-07-12

来了梅西一家乘机抵达迈阿密,即将开启美职联生涯

2023-07-12

中国常驻联合国代表:提供人道援助应当尊重叙利亚主权

2023-07-12

资产负债表的格式有哪些(资产负债表有几种格式)

2023-07-12

证券日报:政策“续期”为房地产恢复注入确定性

2023-07-12

如何查询公积金个人账户(岳阳公积金查询个人账户)

2023-07-12

车贷里有笔一万多元的综合服务费 这是咋回事

2023-07-11

全新普拉多即将国产 一汽丰田承担年产3.6万辆 曾50万起售

2023-07-11

半年报业绩预增翻倍,这只汽车零部件股火了!两大热门板块领涨

2023-07-11

国泰君安:给予周大福(01929.HK)“买入”评级 目标价21.87港元

2023-07-11

郑大一附院美容整形科怎么样?从医生口碑及点评来了解!

2023-07-11

手机相关知识:探探更新后原账号怎么没有了

2023-07-11

中央气象台7月11日18时发布暴雨蓝色预警

2023-07-11

吉林省洮南市生活垃圾焚烧发电项目通过“72+24小时”试运行

2023-07-11

总里程全国第一!北京重点功能区基本实现轨道全覆盖

2023-07-11

利柏特2023年上半年预计净利8500万 -9500万同比增长143.81%到172.5%

2023-07-11

新力金融:预计上半年归母净利润2000万元至2600万元 同比扭亏为盈

2023-07-11

金塔县大力发展特色蔬菜产业

2023-07-11

星火成炬 | 非遗里的中国浪漫

2023-07-11

开拓者GM:理解利拉德 是我辜负了他 但努力并不一定有回报

2023-07-11

人工智能涉足内容创作 将创作者为带来什么?

2023-07-11

安徽全力推动跨境电商加速发展

2023-07-11

抖音号被永久封禁能解封吗 抖音封禁一批高粉低俗账号 基本情况讲解

2023-07-11

日本政府的机关食堂是啥样

2023-07-11

《博德之门3》不担心和《星空》竞争:两款游戏不一样

2023-07-11

未来考虑NBA?杨瀚森及其父母:不想被预设话题困扰

2023-07-11

“静脉密钥”应用场景拓宽,从消费电子走向支付、出行、车载、慢病管理

2023-07-11

多地出台2023年水泥错峰生产计划

2023-07-11

深港通下的港股通标的证券名单调整 旭辉控股集团等调出

2023-07-11

她曾靠给李咏“砸金蛋”露脸,16年后成功逆袭,今成中国顶级名模

2023-07-11

育才中学、六盘山高级中学计划在银川市辖三区分别试点招生应届初中毕业生120名、100名

2023-07-11

国泰中证半导体材料设备主题交易型开放式指数证券投资基金于今日开始上网发售

2023-07-11

萤石网络:融资净买入201.34万元,融资余额1.06亿元(07-10)

2023-07-11

电脑屏幕保护色怎么设置 win10 电脑屏幕保护色

2023-07-11

失望! 哈登申请交易, 恩比德首次公开回应, 76人终于有所开窍

2023-07-11

财务erp系统是什么软件(财务erp系统是什么)

2023-07-11

欧盟理事会通过电池和废旧电池新法规

2023-07-10

意大利、克罗地亚、斯洛文尼亚举行三方会谈 聚焦移民问题

2023-07-10

柯南电影引进被删减20秒,夫妻情侣表达爱意也不许?网友评论真实

2023-07-10

中国网络营销市场分析_中国网络营销论坛

2023-07-10

七八个月的宝宝能吃盐吗?

2023-07-10

招商公路:可转债转股价格调整为7.87元/股

2023-07-10

海尔智家: 海尔智家股份有限公司2023年度A股、H股核心员工持股计划第一次持有人会议决议公告

2023-07-10

光之战士·裂实(完结)

2023-07-10

存款“明码标价”,银行员工为揽储自掏腰包

2023-07-10

双预警升级!山东大部地区有强对流天气,局地冰雹+短时强降水+12级阵风

2023-07-10

尼日利亚西南部交通事故致20人死亡

2023-07-10

仙坛股份6月鸡肉产品销售收入4.88亿元 同比增长33.42%

2023-07-10

大庆公安:为民解忧有速度 暖心服务有温度

2023-07-10

去年我国新接造船订单中绿色船舶占比近五成 创历史最高水平

2023-07-10