99和911哪个大我问了20个AI只有4个回答完全正确

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

9.9和9.11哪个大?我测试了20个AI模型/工具,竟然只有4个AI回答完全正确!甚至连公认的最强模型 GPT-4o 和 Claude 3.5 Pro 也给出了错误的回答和解释。

结论

先上结论。

排名

AI 名称

回答是否正确

解释是否正确

备注

🥇 1

Gemini 1.5 Pro

回答和解释都非常正确,逻辑清晰且严谨

🥈 2

阿里通义千问

回答和解释都非常正确

🥉 3

MiniMax海螺AI

回答和解释都正确

4

百川智能百小应

回答和解释都正确

5

谷歌Gemini

回答正确,但解释过程不够严谨

6

文心3.5

回答正确,但解释过程不够有说服力

7

文心4.0

回答正确,但解释过程不够有说服力

8

讯飞星火

回答和解释都正确,但出现自我矛盾

9

零一万物万知

回答错误

10

GPT-4o

回答错误

11

GPT-4 Turbo

回答错误

12

Claude 3.5 Sonnet

回答错误

13

Meta - Llama 3

回答错误

14

Mistral AI

回答错误

15

Kimi

回答错误

16

智谱清言

回答错误

17

字节豆包

回答错误

18

腾讯元宝

回答错误

19

阶跃星辰跃问

回答错误

20

天工AI

结果作废,无法关闭搜索功能

回答正确的AI(8个)

谷歌Gemini :回答正确,但解释过程不够严谨。

Gemini 1.5 Pro :回答和解释都非常正确,逻辑清晰且严谨。

阿里通义千问 :回答和解释都非常正确。

文心3.5 :回答正确,但解释过程不够有说服力。

文心4.0 :同上,回答正确但解释过程不够有说服力。

讯飞星火 :回答和解释都正确,但解释过程出现幻觉。

MiniMax海螺AI :回答和解释都正确。

百川智能百小应 :回答和解释都正确。

回答错误的AI(11个)

GPT-4o :回答错误。

GPT-4 Turbo :回答错误。

Claude 3.5 Sonnet :回答错误。

Meta - Llama 3 :回答错误。

Mistral AI :回答错误。

Kimi :回答错误。

智谱清言 :回答错误。

零一万物万知 :回答错误。

字节豆包 :回答错误。

腾讯元宝 :回答错误。

阶跃星辰跃问 :回答错误。

问题

9.9和9.11哪个大?

1. GPT-4o

错误。

2. GPT-4 Turbo

错误。

3. 谷歌Gemini

回答正确,但解释过程不是非常严谨。

4. Gemini 1.5 Pro

正确。解释也非常正确,逻辑清晰且严谨。

5. Claude 3.5 Sonnet

错误。

6. Meta - Llama 3

错误。

7. Mistral AI

错误。

8. Kimi

错误。

9. 阿里通义千问

正确。解释也非常正确。

10. 文心3.5

正确,但解释的过程不是非常有说服力,在最关键的步骤用“很显然”这样的话一语带过了。

11. 文心4.0

正确,但同上,解释的过程不是非常有说服力,在最关键的步骤用“很显然”这样的话一语带过了。

12. 讯飞星火

回答和解释都正确,但讯飞星火的这句“对不起,我之前的回答有误”令人哭笑不得。这我该算你对还是算你错。

13. 智谱清言

错误。

14. 天工AI

由于天工AI无法关闭搜索功能直接回答这个问题,即使提示词里加了“不要联网搜索”也不行,所以本次测试结果作废。

15. 字节豆包

错误。

16. 零一万物万知

错误。

17. MiniMax海螺AI

正确,解释也很正确。

18. 腾讯元宝

错误。

19. 阶跃星辰跃问

错误。

20. 百川智能百小应

正确。解答也正确。

精选推荐

使用GPT-4o模型的5种方法,总有一种适合你!

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>