OpenAI甩出GPT-5.5 Instant!幻觉暴降52%,话少三成,全员免费
智东西
作者 | 王涵
编辑 | 冰倩
智东西5月6日报道,今天,OpenAI正式推出GPT‑5.5 Instant版,将从今天开始向所有ChatGPT用户逐步推出,取代GPT‑5.3 Instant成为默认模型。
此次更新主要体现在日常交互上,GPT‑5.5 Instant的对话语气更加自然,回答准确率更高且更紧凑,并且当用户使用个性化功能时,模型还能够调取过往的对话记录,补充背景信息。
Sam Altman第一时间转发官宣推文“强推”这一模型,并称:“速度、智能、个性,再加上强大的记忆与个性化能力,这几方面的改进组合在一起,当它们同时发挥作用时,给人的感觉已经远不止是各部分简单的相加,而是一种整体大于部分之和的体验。”
在内部评估中,在医学、法律和金融等领域,GPT‑5.5 Instant的幻觉率比GPT‑5.3 Instant减少了52.5%。
基准测试方面,在衡量科学图表推理准确度的CharXiv-reasoning中,GPT-5.5 Instant比GPT-5.3 Instant提升了6.6%。多模态专家推理测试MMMU-Pro中,GPT-5.5 Instant的准确率提升了6.8%。
在文档解析任务中,GPT-5.5 Instant的错误率降低了2.1%,相对降幅约14.4%。在博士级科学问答测试中,GPT-5.5 Instant的准确率提升了7.1%。在数学竞赛AIME 2025中,其准确率涨了15.8%。
在API中,GPT‑5.5 Instant的名称为“chat‑latest”。对于付费用户,GPT‑5.3 Instant在退役前还将保留三个月,可通过模型配置设置进行访问。
基于过往对话、上传文件及已连接Gmail的增强个性化功能,正在向网页端的Plus和Pro用户推出,即将登陆移动端,并计划在未来几周内扩展至Free、Go、Business和Enterprise用户。
记忆来源功能正在向网页端所有ChatGPT个人版套餐用户推出,并将很快登陆移动端。特定个性化来源的可用性可能因地区而异。
在OpenAI官宣推文下方有,网友注意到了该模型的AIME成绩的提升,认为“这表面上是产品更新,实则是纯粹的推理能力升级,绝不仅仅是聊天的微调。这是一种“偷偷”发布思考模型的方式。”
还有网友发现:“‘更温暖、更简洁’这两点恰恰是用户真正抱怨过的地方。有意思的是,今年最大的一次模型升级,本质上却更像是一次‘性格补丁’。”
但也有不少网友对这次升级并不买账,他们想要的是更实用的功能更新。甚至还有网友在怀念GPT-4o。
一、图像解析能力提高,虚假信息减少52.5%
在内部评估中,对于涵盖医学、法律和金融等领域的高风险提示,GPT‑5.5 Instant生成的虚假信息比GPT‑5.3 Instant减少了52.5%。在用户曾标记存在事实错误的特别具有挑战性的对话中,它也减少了37.3%的不准确说法。
GPT-5.5 Instant提升了图像解析、STEM学科(科学、技术、工程和数学)问答水平,还可智能判断是否调用网络搜索,从而给出更优质的回复。
从案例中可以看出,GPT‑5.5 Instant一开始认可了错误的解法,但随后发现将x=3代回原方程时不成立。它识别出了实际的代数错误(用户移项有误),然后使用求根公式得出了正确的解。
而GPT‑5.3 Instant虽然也发现了x=3不成立,但就此止步,错误地得出没有实数解的结论,而不是重新检查代数步骤并求解修正后的二次方程。
二、回答更紧凑,字数减少30.2%
此外,GPT‑5.5 Instant的回答更加紧凑、切中要点,同时在保持温暖感和个性化。
该模型能够在传达相同信息且更具实用性的同时,减少冗长和过度格式化导致的回答过长问题。其还会减少不必要的追问,并避免如随意添加表情符号等让回答显得杂乱。
GPT‑5.5 Instant使用的字数减少了30.2%,行数减少了29.2%。其回答语气把握得当:非正式、实用且适合工作场合,同时避免了过度解释。该模型针对不同情况提供了可实际使用的脚本,始终围绕“界限”来阐述问题。
GPT‑5.3的回答则更完整,尤其是“不要做什么”的部分,但对于一个非正式的日常建议类提示来说,略显过于复杂,其结构和推敲程度可能超出了用户的实际需求。
三、自动检索历史对话,记忆来源功能全系上线
GPT‑5.5 Instant还能利用过往聊天记录、上传的文件以及Gmail中的上下文信息,从而使回答更具个性化。
该模型可智能判断何时融入个性化元素以优化回复,同时其检索历史对话、匹配上下文的速度大幅提升,无需用户反复重复表述。
可以看到,GPT‑5.5 Instant的回答能够更好地引用过往对话和相关的已连接数据,从而提供更细致、高度个性化的建议。而GPT‑5.3 Instant的回答虽然考虑到了用户位于旧金山这一因素,但对于推荐尝试的地方,给出的建议仍较为笼统。
ChatGPT全系模型现已上线记忆来源功能。用户可查看个性化回答所引用的上下文依据,并获得自主管控权限。
当模型生成个性化回复时,用户能够追溯答案所依托的具体上下文,包括已保存记忆及历史对话记录;对于过时、失效或无关的信息,可随时进行删除与更正。
此外,用户分享对话内容时,记忆来源信息不会对外展示。同时该功能支持多种隐私管控方式:可单独删除不愿被引用的历史对话,在设置界面编辑或清空已保存记忆,也可使用临时对话模式,全程不调用、不更新个人记忆。
结语:交互质量与用户可控性提升
在基础能力趋于收敛的背景下,“怎么让模型回答地更让用户舒服?”成为大模型厂商思考的问题。
GPT‑5.5 Instant的更新给出了OpenAI的答案::其一,其减少了在专业知识问答方面的幻觉率;其二,回答的简洁度与语气调控被纳入优化目标;其三,记忆来源功能建立信任基础。
客观而言,这类“体验型更新”难以通过传统基准测试完全量化其价值,其真实效果还将取决于用户在长期使用中的主观感受。
(来源:新浪科技)















