当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为什么中国JK无法拍出日本JK的感觉?
如何评价微软的远程桌面?
墨脱水电站建设有什么进展?
duckdb的性能如何?
有谁现在正在使用苹果mac mini 吗?能分享一下使用感受不?
请问有人能估计一下 go 相比 php 在不同用户量下能省多少钱吗?
为什么国人普遍不接受月付的订阅制而喜欢一口价买断制呢?
鱼缸能不能做到一直不换水还很清澈?
前端,后端,全栈哪个好找工作?
如何评价林志玲?
阿里云为什么没有一年的免费云服务?
golang总体上有什么缺陷?
如何评价高圆圆的身材算是美女类型的吗?
真的有这种又苗条身材又爆炸的么?
Linux 下有没有类似 Everything 的搜索工具?
为什么武汉和成都发展差不多,但成都美誉度口碑高于武汉?
你认为这次伊以冲突,以色列这次干得漂亮吗?
大一计算机新生怎么合理利用github?
求大神解答,为什么大家都不喜欢用docker?
在NAS上安装了什么应用,让你的生活体验有了巨大的提升?
相对于Go,哪些领域是.NET做不到或做不好的?
大家为什么会讨厌缩写?
为什么韩国的热辣舞团无法征服中国的男性市场??
为什么明明身边二胎非常普遍,但从人口统计数据看,人口依然是在减少的?
印度公开藏南地区我方战士口咬手雷坚守的***,是想表达什么?
如何评价鸿蒙电脑无法编写其自身运行的程序?
中国经营得最差的省级电视台是什么?
字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
***拍大尺度片子时摄影师不会看光吗?
如果你是雷军,你如何应对饱和式攻击?