GPT-4准确率大跳水，从97.6%降至2.4% | 芋道源码 —

阅读全文

⭐⭐⭐ Spring Boot 项目实战	⭐⭐⭐ Spring Cloud 项目实战
《Dubbo 实现原理与源码解析 —— 精品合集》	《Netty 实现原理与源码解析 —— 精品合集》
《Spring 实现原理与源码解析 —— 精品合集》	《MyBatis 实现原理与源码解析 —— 精品合集》
《Spring MVC 实现原理与源码解析 —— 精品合集》	《数据库实体设计合集》
《Spring Boot 实现原理与源码解析 —— 精品合集》	《Java 面试题 + Java 学习指南》

摘要: 原创出处 OSC开源社区（ID：oschina2013) 「OSC开源社区」欢迎转载，保留摘要，谢谢！

🙂🙂🙂关注**微信公众号：【芋道源码】**有福利：

RocketMQ / MyCAT / Sharding-JDBC 所有源码分析文章列表

RocketMQ / MyCAT / Sharding-JDBC 中文注释源码 GitHub 地址

您对于源码的疑问每条留言都将得到认真回复。甚至不知道如何读源码也可以请教噢。

新的源码解析文章实时收到通知。每周更新一篇左右。

认真的源码交流微信群。

斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?” 研究表明，随着时间的推移，GPT-4 的响应能力非但没有提高，反而随着语言模型的进一步更新而变得更糟糕。

研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现，分别为：解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。

他们使用了一个包含 500 个问题的数据集评估模型，测试模型必须确定给定的整数是否是素数。结果表明，GPT-4（2023 年 3 月版）在识别质数方面表现非常出色，正确回答了其中的 488 个问题，准确率达 97.6%。但 GPT-4 （2023 年 6 月版）在这些问题上的表现却非常糟糕，只答对了 12 个问题，准确率仅为 2.4%。

而与之相反，GPT-3.5（2023 年 6 月版）在这项任务中的表现则要比 GPT-3.5（2023 年 3 月版）好得多。

研究团队还使用了 "Chain-of-Thought"（思维链）来帮助模型进行推理，提出 “17077 是一个质数吗？一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 "否"，还没有生成解题的中间步骤。

与 3 月份相比，GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比，GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误，质量明显下降。

对于 GPT-4，可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%；GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加，其中 GPT-4 增加了 20%。

视觉推理方面，GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询，3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低：GPT-4 为 27.4%，GPT-3.5 为 12.2%。且在某些特定问题上，GPT-4 在 6 月份表现要比在 3 月份差。

研究人员认为，这些结果表明，"相同" 的 LLM 服务的行为会在相对较短的时间内发生重大变化，凸显了对 LLM 质量进行持续监控的必要性。

“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现，在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司，我们建议他们对其应用程序进行类似的监控分析。”

更多详情可查看完整报告：https://arxiv.org/pdf/2307.09009.pdf