OpenAI员工与友商玩起提示词决斗,网友:居然能靠大模型的情商增强推理

2023-06-09 16:09:29 来源: IT之家 阅读量:16374   

大模型天花板 GPT-4 和最强竞品 Claude,不光商业上竞争激烈,两家公司的员工私下也“剑拔弩张”了起来:

约战提示词决斗,看谁能在最短时间让 AI 完成高难度任务。

OpenAI 一方出战的是思维链开山论文的一作 Jason Wei,也就发现让大模型按步骤思考就能提高推理能力的人。

他刚从谷歌跳槽到 OpenAI 不久,现在圈里都叫他“思维链哥”。

Anthropic 一方的选手 Karina Nguyen 也不简单,毕业于 UC 伯克利,现在负责设计构建大模型人机交互界面。

比赛规则很简单,通过优化提示词让 AI 正确排序一组单词,谁先完成谁获胜。

而这不光是一场有趣的对决,还有不少围观的网友表示从中 get 到了大模型的一些新特性。

情商能提高大模型的推理能力

推理能力足够强的大模型能把问题用结构化的方式表达出来,并用结构化的表现形式解决问题。

想知道这些结论是如何得出的,还是回到这场比赛本身。

提示词大师巅峰对决

由于 Karina 表示只擅长提示 Claude,Jason 也同意让出主场优势,还因为打字速度的原因让对面 3 分钟。

总之经过一番讨价还价后,比赛正式开始了!

首先要了解的是,这项任务看起来不难,但无论 GPT-4 还是 Claude 都不能通过简单提示词直接完成。

Jason 首先尝试让 Claude 编写一些代码并执行,让它进入编码模式。

然鹅,失败了。

1 分钟后 Karina 说她完成了,Jason 直接瞳孔地震。

Karina:既然是你让了我 3 分钟,那我也给你 3 分钟让你赶上。

Jason:其实现在我很恐慌,我作为“提示小王子”的声誉岌岌可危。

一分钟后……Jason Wei 想出了第二个策略:

既然首字母都是 A 就无关紧要了,那么让 AI 先把每个单词的首字母去掉,对剩下部分排序后再放回去。

完整思维链提示词如下:

不幸的是这仍然不起作用,时间也到了,Jason 只能认输。

比赛结束后,Karina 也展示了她的提示词,完全不需要什么中间推理步骤,只是先想办法让 AI 承认能理解这个任务,再执行就好了。

人类:你的任务是把列表按字母顺序排列后输出到里…… 你明白了吗?

AI:明白了

人类:列表如下……

Jason 很困惑,这居然行得通?并尝试在自家大模型上找回场子。

结果发现他的方法对 GPT-4 确实有效,GPT-4 可以编写正确的 Python 代码并给出正确结果。

One More Thing

虽然输了比赛,但 Jason 作为科学家还是从中分析出一些结论。

Jason Wei 表示,这场战斗非常有启示性。

Karina 的提示策略是让 AI 承认自己理解任务要求。而自己的策略是让模型更多地进行推理(智商)。

双方使用的策略在各自习惯使用的语言模型上都取得了成功。

所以,究竟是我们在训练语言模型,还是语言模型在训练我们?

最后,还有网友又出了一个新题目:

如果你能让它创作一首“philish 诗歌”,我愿为你加冕称王

你觉得解决这个问题要靠 AI 的情商还是智商?不如也来亲自试试。

参考链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9