最近有个问题挺火,歌手2024的结果,孙楠13.8%排第三,CM13.11%排第四,竟然引起网上很多人质疑,认为13.11比13.8大,质疑官方公开舞弊。排除有人故意搞笑,或许真的有人这么想。

因为小镇拿AI试了一下,问AI们9.11和9.9哪个数更大,结果全世界Ai们纷纷翻车,翻车的主要是美国的大模型,认为9.11更大,而中国大模型大都对了。

其实结论判断错了倒也罢了,问题是很多AI明明逻辑是正确的,也知道个位数都是9,需要比较小数点之后的小数,但美国的AI们竟然认为小数点后的11>9,所以9.11更大。

先是国外的,集体翻车:

GPT-4o错得很干脆,直接说0.11大于0.9。

GPT3.5Turbo是一样的毛病。

2024年6月新发布Claude3.5,还有谷歌的Gemini 1.5 Flash最搞笑,一边说11/100比90/100小,但是又说0.11比0.9大,逻辑已经彻底乱了。

Sider Fusion跟GPT一个毛病。

精神最错乱的当属Meta公司的Llama 3。既小又大,反正两个结论都说了,就差说9.11和9.9一样大了。

唯一正确的是谷歌的Gemini 1.5 Pro,这个版本是1.0 Ultra和1.5Flash的升级版,终于知道小数点之后要一位位的比,果然Flash不愧是“最快的模型”,别管对不对,快就完事了。

跟集体翻车的美国AI们相对比,中国AI靠谱太多了,测试了四个,分别是通义千问、文心一言、讯飞星火、月之暗面的Kimi,除了Kimi都对了,文心一言还特别强调,小数部分比较要从左到右、每一位都要进行比较。

虽然国产大模型也有错误的,但总的来说,作为中美两国头部的大模型,国产大模型大多数是对的,与国外大多数是错的形成了鲜明对比。

当然毕竟9.11和9.9的比较实在是太容易了,不能因此认为美国的数学水平比中国低,目前AI也确实普遍存在类似幻觉率太高的问题,这也导致大模型目前很难应用于实际生产,毕竟搞搞文字、图片、内容生成,错了就错了,实际生产如果出现这种错误,那问题就大了。

但考虑到AI大模型训练是基于大量的数据,美国的当然用美国的数据,中国的用中国的数据,那么造成这个错误,就两个可能:

一是美国的大模型存在严重的底层错误。发现一个蟑螂就意味着有更多没有发现的,还有多少类似于9.11大于9.9的可笑错误?这些错误的存在必然会影响大模型的实际使用。

目前中美大模型基于的基础理论是一致的,因此不至于因为基础理论和架构,出现中国大模型可以、美国不行的问题。

二是美国国民数学平均能力远远差于中国。毕竟进行训练的时候,不可能只选择来自精英的数据,或许是美国近些年极为普遍的轻视理工科教育、全民反智倾向,导致了这一恶果。

当然,以上猜测只是一种可能,理论上不至于在这么简单的问题上出现错误,那么还有一种可能,那就是“草台班子”问题。

凡是在这个问题上出现错误的AI大模型,开发团队肯定直接把数字当文本处理了,虽然回答的时候会提到小数,但实际分析的时候忽略了小数点,属于非常基础的模型分词错误。

也可能是某些大模型在处理的时候,为了节省资源,直接用了32位单精度甚至16位半精度计算,而没有使用64位的双精度浮点计算。

但无论如何,中美两国的头部大模型,美国的基本全错,中国的基本全对,显然美国的AI大模型公司需要反思,且看什么时候这个问题能够得到纠正,各公司理应收到了很多结果错误的反馈,如果一周时间还不能解决,那需要反思的就更多了。

从目前看,至少国外的大模型AI不太适合做数学题,还是别难为AI了。

来源于:微信公众号-大树乡谈