AI又对奥数下手，刷题刷出“模考”最好成绩

2022-02-07 23:20:23 来源： IT之家阅读量：6519

AI 在最不擅长的数学方面，这次大幅刷新了最好成绩。

其中关键角色是 OpenAI 给 Lean 做的一个定理证明器。

听起来有点耳熟。没错，就是去年参加国际数学奥林匹克竞赛的非人选手 Lean~

自从 2013 年微软研究院推出 Lean 以来，就一直尝试让 AI 在数学命题证明这方面取得进展。

而这次也确实得到了回报，OpenAI 新做的这个定理证明器让它学会了解决一部分有难度的高中奥数题，包括美国的数学竞赛 AMC12，AIME 甚至是国际奥数竞赛中的题。

它首先会用语言模型将数学问题转化为另一种形式，列出隐藏的条件和已知信息，然后来推理求证。

虽然在刚开始效果并不明显，只能证明几个命题但是在不断地搜索新的证明，经过八次迭代之后，在 miniF2F 测试中，成功地把分数从 29.3% 刷到了 41.2%

我们来看看这 AI 是怎么在奥数题上施展拳脚的。

AI 如何做奥数题

先来看一个简单的问题热热身:

对于所有大于等于 9 的整数 n，证明下图中的式子是一个完全平方数。

按照普通人的思考方式，可以先把式中分子提出一个 n 的阶乘，与分母约去。

然后分子化简为²这在形式上就是一个完全平方数，问题得证

那 AI 是怎么做的呢。

它首先从文本中提取了条件和已知信息，例如 n 是整数，n 大于等于 9。

接下来，它把需要证明的问题换了一种说法，改为:

存在一个整数 x，使 x² 和原式相等。

然后在解题的过程中，完全由模型直接生成了一个数学项n+1作为一个解:use n+1接下来再去验证这个解是否成立

如果没有语言模型，这是不可能做到的。

这么看来这模型能耐了，还有了一些数学想法，再拿一道国际奥赛的改编题来考考它:

设 a，b，c 是一个三角形的三条边，证明 a²+b²+c²≤3abc。

同样地，AI 还是先把条件都列出来。不过这次还列出了与三角形有关的隐藏条件:

a，b，c 都是大于 0 的实数，并且有任意两边之和大于第三边。

然后模型还自创了一个方法，列出了，，，看起来好像不明所以。

但是如果把目标式子展开，你就会发现这三项正是舒尔不等式的几个对称项:

根据舒尔不等式，对所有非负实数 x，y，z 和正数 t，都有:

当 t=1 时，这和奥数题中的形式完全一样，命题得证。

这么看来，AI 这水平着实不简单啊，要构造出这种效果可绝非易事。

对奥数下手的难点

让 AI 来做奥数，确实比学生自己磕高数题难多了。

这第一个难点就是，模型不是从有限的选项中做选择要是像下围棋那样，格点就那么多，选择空间有限，还好说一点

但是做奥数，模型要从一组复杂的无限策略中做选择，期间还要生成一些数学中的术语，例如存在，任意等。

针对这个难点，OpenAI 通过在搜索证明方法时从语言模型中采样来解决。

而第二点就是模型缺乏自我对抗和博弈做奥数题和双人游戏不同，它不是和另一个玩家比赛，而是要证明一个数学命题

这样一来在双人游戏上成功的算法就不能迁移过来。

为了解决这个问题，研究人员提供了一套不同难度教辅资料，用来辅助描述问题而不需要证明。

当这些辅助的描述难度越来越大时，模型就能解决越来越难的问题。

不过这两个难点，反倒可以成为它的优势。

一方面，因为这类数学命题的证明就是需要推理，需要无限的创造力和洞察力。

另一方面，这种辅助描述式的方法也有助于 AI 自动推理的发展。

说不好，将来深度学习模型还能征服奥数这座高山。

参考链接:

。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

精选导读

大摩：苹果产量或超预期增长，预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出，苹果本季度iPhone产量可能超预期增长，因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间： 2021-12-23 17:04

行情 2021-12-23

中金：维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称，维持石四药集团“跑赢行业”评级，保持2021/22年归母净利润预测7.9/11.64亿元不变，目标价5.8港元。报告中称...

发布时间： 2021-12-23 17:03

行情 2021-12-23

实探中装建设元宇宙合作方鸿蒙时代：与华为无关已搬离注册地

12月22日，深交所对中装建设发布关注函，要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间： 2021-12-23 17:02

行情 2021-12-23

“疫”线女将：眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间： 2021-12-23 16:48

要闻 2021-12-23

联通网络智能运维产品研发招标：华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果，华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式，从故障感知到信...

发布时间： 2021-12-23 16:35

酷玩 2021-12-23

热点推荐

小米12Pro自研智能动态刷新率演示视频公布：支持新技能“滑动变速”，更

今日上午，小米手机官方表示，小米自研智能动态刷新率，是第二代低功耗2K屏幕的创新体验，第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间： 2021-12-23 16:31

酷玩 2021-12-23

增速惊人！鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上，华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间： 2021-12-23 16:26

酷玩 2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑，婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求，他趣用户从线上延伸到线下，通过组织...

发布时间： 2021-12-23 14:59

机器人 2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日，2022中国信通院ICT＋深度观察报告会隆重举办，京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间： 2021-12-23 14:56

机器人 2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140：新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验，并新增了桌面图标放大功能。更新包2修复...

发布时间： 2021-12-23 14:41

机器人 2021-12-23

AI又对奥数下手，刷题刷出“模考”最好成绩

精选导读

大摩：苹果产量或超预期增长，预计Q1业绩有“惊喜”

中金：维持石四药集团跑赢行业评级目标价5.8港元

实探中装建设元宇宙合作方鸿蒙时代：与华为无关已搬离注册地

“疫”线女将：眼里有光心中有爱

联通网络智能运维产品研发招标：华为、中软等11家企业入围

热点推荐

小米12Pro自研智能动态刷新率演示视频公布：支持新技能“滑动变速”，更

增速惊人！鸿蒙用户量半年突破2.2亿

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140：新增桌面

每日热点

最新资讯

AI又对奥数下手，刷题刷出“模考”最好成绩

精选 导读

热点 推荐

每日热点

最新资讯

精选导读

热点推荐