Anthropic 正式对外发布 Claude Fable 5,这也是该厂商命名为 “Mythos(神话级)” 序列里第一款面向大众开放使用的大模型。先期实测数据显示,这款模型代码编写能力实现跨越式提升,但严苛的安全过滤机制、偏高的使用定价以及数据留存规则,正引来业内尖锐的质疑与批评之声。
Claude Fable 5 一经落地,便在绝大多数权威评测榜单中拔得头筹,它是 Mythos 系列首个对外开放的版本。按照 Anthropic 官方说明,Fable 5 与仅限小众用户内测的 Claude Mythos 5 共享同一基础模型权重;区别在于 Fable 5 增设了多层严格安全防护屏障,会直接拦截网络安全、生物化学、模型蒸馏等领域内存在潜在风险的提问指令。而原版 Mythos 5 虽性能同源,准入门槛极高,仅少量合作客户能够体验。
目前行业内暂时没有明确的官方技术详解,Mythos 架构的真实技术内核只能依靠从业者推测。提前拿到测试权限的企业负责人丹・希珀透露,Anthropic 内部工作人员告知其,该系列并没有采用颠覆性的特殊架构;对比品牌原有 Haiku、Sonnet、Opus 三级产品梯队来看,Mythos 本质就是规模最大、综合能力最强的顶配型号。开发者西蒙・威利森也持相同观点,他判断 Fable 5 就是 Anthropic 至今对外放出的体量最大的模型。威利森评价,这款模型处处透着 “超大模型” 的特质,不止调用速度、计费成本更高,知识储备广度同样拉开差距。第三方评测机构 Artificial Analysis 的数据佐证了这一点:在衡量知识储备与幻觉出错率的 AA-Omniscience 基准测试中,Fable 5 拿到 40 分,比此前榜首 Gemini 3.1 Pro 高出 7 分;在开源权重模型赛道里,这种分数差距通常直接对应参数量级的悬殊差异。
霸榜各大评测榜单,质疑声依旧此起彼伏
几乎所有主流 AI 能力排行榜上,Claude Fable 5 都稳居第一位。在 Artificial Analysis 智能综合指数测评中,它斩获 64.9 分,甩开紧随其后的竞品 GPT-5.5 约 5 个分值;面向现实办公智能代理场景的 GDPval-AA 测试里,其 Elo 能力分值达到 1932;高难度综合考卷 Humanity’s Last Exam 中,得分率 53%,对比前代旗舰 Opus 4.8 高出 7 个百分点。值得一提的是,完成这套完整测评单次开销就达到 2200 美元,其中还包含兜底补偿损耗费用。即便硬实力数据亮眼,行业观望者并未全然认可这款产品的综合实用性,安全束缚与高昂成本两大短板成为讨论焦点。
