99和911哪个大我问了20个AI只有4个回答完全正确
9.9和9.11哪个大?我测试了20个AI模型/工具,竟然只有4个AI回答完全正确!甚至连公认的最强模型 GPT-4o 和 Claude 3.5 Pro 也给出了错误的回答和解释。
结论
先上结论。
排名
AI 名称
回答是否正确
解释是否正确
备注
🥇 1
Gemini 1.5 Pro
✅
✅
回答和解释都非常正确,逻辑清晰且严谨
🥈 2
阿里通义千问
✅
✅
回答和解释都非常正确
🥉 3
MiniMax海螺AI
✅
✅
回答和解释都正确
4
百川智能百小应
✅
✅
回答和解释都正确
5
谷歌Gemini
✅
❌
回答正确,但解释过程不够严谨
6
文心3.5
✅
❌
回答正确,但解释过程不够有说服力
7
文心4.0
✅
❌
回答正确,但解释过程不够有说服力
8
讯飞星火
✅
❌
回答和解释都正确,但出现自我矛盾
9
零一万物万知
❌
❌
回答错误
10
GPT-4o
❌
❌
回答错误
11
GPT-4 Turbo
❌
❌
回答错误
12
Claude 3.5 Sonnet
❌
❌
回答错误
13
Meta - Llama 3
❌
❌
回答错误
14
Mistral AI
❌
❌
回答错误
15
Kimi
❌
❌
回答错误
16
智谱清言
❌
❌
回答错误
17
字节豆包
❌
❌
回答错误
18
腾讯元宝
❌
❌
回答错误
19
阶跃星辰跃问
❌
❌
回答错误
20
天工AI
❓
❓
结果作废,无法关闭搜索功能
回答正确的AI(8个)
谷歌Gemini :回答正确,但解释过程不够严谨。
Gemini 1.5 Pro :回答和解释都非常正确,逻辑清晰且严谨。
阿里通义千问 :回答和解释都非常正确。
文心3.5 :回答正确,但解释过程不够有说服力。
文心4.0 :同上,回答正确但解释过程不够有说服力。
讯飞星火 :回答和解释都正确,但解释过程出现幻觉。
MiniMax海螺AI :回答和解释都正确。
百川智能百小应 :回答和解释都正确。
回答错误的AI(11个)
GPT-4o :回答错误。
GPT-4 Turbo :回答错误。
Claude 3.5 Sonnet :回答错误。
Meta - Llama 3 :回答错误。
Mistral AI :回答错误。
Kimi :回答错误。
智谱清言 :回答错误。
零一万物万知 :回答错误。
字节豆包 :回答错误。
腾讯元宝 :回答错误。
阶跃星辰跃问 :回答错误。
问题
9.9和9.11哪个大?
1. GPT-4o
错误。

2. GPT-4 Turbo
错误。

3. 谷歌Gemini
回答正确,但解释过程不是非常严谨。

4. Gemini 1.5 Pro
正确。解释也非常正确,逻辑清晰且严谨。

5. Claude 3.5 Sonnet
错误。

6. Meta - Llama 3
错误。

7. Mistral AI
错误。

8. Kimi
错误。

9. 阿里通义千问
正确。解释也非常正确。

10. 文心3.5
正确,但解释的过程不是非常有说服力,在最关键的步骤用“很显然”这样的话一语带过了。

11. 文心4.0
正确,但同上,解释的过程不是非常有说服力,在最关键的步骤用“很显然”这样的话一语带过了。

12. 讯飞星火
回答和解释都正确,但讯飞星火的这句“对不起,我之前的回答有误”令人哭笑不得。这我该算你对还是算你错。

13. 智谱清言
错误。

14. 天工AI
由于天工AI无法关闭搜索功能直接回答这个问题,即使提示词里加了“不要联网搜索”也不行,所以本次测试结果作废。

15. 字节豆包
错误。

16. 零一万物万知
错误。

17. MiniMax海螺AI
正确,解释也很正确。

18. 腾讯元宝
错误。

19. 阶跃星辰跃问
错误。

20. 百川智能百小应
正确。解答也正确。

精选推荐
使用GPT-4o模型的5种方法,总有一种适合你!



共有 0 条评论