当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
Rust 的设计缺陷是什么?
为什么腾讯云或者阿里云不让自建dns服务器?
苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
乡下的土鸡真的值100块钱吗?
为什么微软出的软件都那么巨大?
黑客为什么可以做到无需知道源码的情况下找出系统漏洞?
《潜伏》里的翠萍为什么不会被人怀疑是卧底?
如果苹果真的下架了微信的话,会发生什么?
UUID真的是全球唯一吗?
如何评价《灵笼 2》第六集?
flutter为什么不用Go语言,而用Dart?
HTTP/3 解决了什么问题,又引入了什么新问题?
曼德拉是南非的罪人吗?
如何评价DuckDB?
有什么好用的安卓本地音乐播放器推荐?
如何评价鸿蒙电脑无法编写其自身运行的程序?
ant-design-vue 社区为什么不维护了?
养鱼一年要花费多少钱?
都说苹果是细节狂魔,那苹果有没有细节其实做的很差的点?
胸大的女孩会自卑 吗?
电脑C盘爆满,如何彻底清理垃圾又不误删系统文件?
来自东北人的疑惑,南方的菜分量到底有多小?
iOS 26 的新设计被吐槽丑,苹果在设计更新时考虑了哪些因素?你对这一设计都有哪些评价?
伊朗发布「霍拉姆沙赫尔-4」导弹发射画面,被认为是伊朗破坏力最强导弹,其威力有多大?
postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?
印度空难客机两个黑匣子均已找到,最新发现的为驾驶舱语音记录器,会对事故调查带来哪些帮助?
尊界S800 车内软包部分***用 0.2mm - 0.5mm 超细针脚缝制处于什么工艺水平?
为什么微软还没有倒闭?
JetBrains 放弃 AppCode 是否是一个错误决定?
055驱逐舰 是个什么概念?