虽说好饭不怕晚,但如果这边席都吃完了,那边才端上菜,难免让人怀疑是能力不行。
尤其是把这句话放在日新月异的互联网上,放在干啥都挺快的互联网巨头身上,多少沾点「挽尊」的委婉。
事情是这样的,时隔两个月,我终于收到了,那个被网友吐糟为最晚发布 AI 大模型的腾讯混元大模型的内测短信。
而上一个叫这个名字的,是辣个可以轻松「接,化,发」使出闪电五连鞭的男人。
我们前后测评过 ChatGPTGPT-4,百度文心一言、讯飞星火等等,在同样的问题前,有的门派站住了脚跟,有的则是被当成了笑话。
当时有很多小伙伴说,不信发布会上的云测,只信日常玩家的实测,那这个迟到的混元大模型表现如何?
咱们一起测一手好了。
经典三问
当初挂羊头卖狗肉的镜像站太多,所以为了不被骗,网友们总结出了 3 个能让 GPT-3.5 及其 API 全军覆没,GPT-4 却稳稳拿下的问题。
所以自从国产大模型一个接一个亮相,经典三问就成了每次测试大模型中文理解能力中必不可少的一环。
有一说一,之前测试文心一言和星火的时候,表现天差地别,而这次趁着测试混元大模型,我又找人帮我弄了个文心一言 4.0 的账号。
和最新的文心一言 4.0 对比,腾讯调教出来的混元模型表现如何呢?——
问题一:昨天的当天是明天的什么?
这道题即考逻辑,又考推理,老前辈 GPT-3.5 只会跟你瞎扯,就像下面文心一言 4.0 一样:
是的,在这道问题面前,判断「昨天是明天的今天」的文心一言再次败下阵来。
登录后下载查看内容:点击我登录本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信邮箱souziyuan@outlook.com
共有 0 条评论