大模型靠“深呼吸”数学再涨8分!谷歌DeepMind发现AI自己设计提示

2023-09-11 12:36:49 来源: IT之家 阅读量:14897   

提示词中加上“深呼吸”,AI 大模型数学成绩就能再涨 8.4 分!

谷歌 DeepMind 团队最新发现,用这个新“咒语”结合大家已经熟悉的“一步一步地想”(Let’s think step by step),大模型在 GSM8K 数据集上的成绩就从 71.8 提高到 80.2 分。

而且这个最有效的提示词,是 AI 自己找出来的。

有网友开玩笑说,深呼吸以后,散热风扇就转速就提高了。

也有人表示,刚高薪入职的提示工程师们也应该深呼吸,工作可能干不久了

相关论文《大语言模型是优化器》,再次引起轰动。

具体来说,大模型自己设计的提示词在 Big-Bench Hard 数据集上最高提升 50%。

也有人的关注点在“不同模型的最佳提示词不一样”。

并且不止提示词设计这一个任务,在论文中还测试了大模型在线性回归和旅行商问题这些经典优化任务上的能力。

模型不同,最佳提示词也不同

优化问题无处不在,基于导数和梯度的算法是强大的工具,但现实应用中也经常遇到梯度不适用的情况。

为解决这个问题,团队开发了新方法 OPRO,也就是通过提示词优化。

不是形式化定义优化问题然后用程序求解,而是用自然语言描述优化问题,并要求大模型生成新的解决方案。

一图流总结,就是对大模型的一种递归调用。

每一步优化中,以之前生成的解决方案和评分作为输入,大模型生成新的方案并评分,再将其添加到提示词中,供下一步优化使用。

论文主要使用谷歌的 PaLM 2 和 Bard 中的 text-bison 版本作为评测模型。

再加上 GPT-3.5 和 GPT-4,共 4 种模型作为优化器。

结果表明,不光不同模型设计出的提示词风格不同,适用的提示词风格也不同。

此前在 GPT 系列上的 AI 设计出的最优提示词是“Let’s work this out in a step by step way to be sure we have the right answer.”

这个提示词使用 APE 方法设计,论文发表在 ICLR 2023 上,在 GPT-3上超过人类设计的版本“Let’s think step by step”。

但这次在谷歌系 PaLM 2 和 Bard 上,APE 版本作为基线就还不如人类版本。

OPRO 方法设计出来的新提示词中,“深呼吸”和“拆解这个问题”对 PaLM 来说效果最好。

对 text-bison 版的 Bard 大模型来说,则更倾向于详细的提示词。

另外论文还展示了大模型在数学优化器上的潜力。

线性回归作为连续优化问题的示例。

旅行商问题作为离散优化问题的示例。

仅仅通过提示,大模型就能找到不错的解决方案,有时甚至匹敌或超过手动设计的启发式算法。

但团队也认为大模型还无法替代传统基于梯度的优化算法,当问题规模较大时,OPRO 方法表现就不好。

对于未来改进方向,团队提出当前大模型还无法有效利错误案例,仅提供错误案例无法让大模型捕捉捕捉到错误的原因。

一个有前景的方向是结合关于错误案例的更丰富的反馈,并总结优化轨迹中高质量和低质量生成提示的关键特征差异。

这些信息可能帮助优化器模型更高效地改进过去生成的提示,并可能进一步减少提示优化所需的样本数量。

论文放出大量最优提示词

论文来自谷歌与 DeepMind 合并后的部门,但作者以原谷歌大脑团队为主,包括 Quoc Le、周登勇。

共同一作为康奈尔大学博士毕业的复旦校友 Chengrun Yang,和 UC 伯克利博士毕业的上交大校友陈昕昀。

团队还在论文中给出了大量实验中得到的最优提示词,包括电影推荐、恶搞电影名字等实用场景,有需要的小伙伴可自取。

论文地址:

参考链接:

广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9