OpenAI 的 o3 模型取得突破性进展但经济性欠佳
AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试,其展示了 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%,相较于上代模型提升了3倍,在高计算模式下得分为 87.5%,大幅领先于其他受试模型。
然而,这种通用性的成本很高,而且目前还不是很经济:让人类解决 ARC-AGI 任务仅需支付大约每项任务 5 美元的费用,同时仅消耗几美分的能源。而 o3 在低计算模式下每项任务需要 17-20 美元,在高计算模式中每个任务数千美元。此外,仍有相当多的非常简单的 ARC-AGI-1 任务是 o3 即使消耗了数百万 token 也无法解决的,而这些任务对于正常人类并不复杂。
—— Arc Prize
AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试,其展示了 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%,相较于上代模型提升了3倍,在高计算模式下得分为 87.5%,大幅领先于其他受试模型。
然而,这种通用性的成本很高,而且目前还不是很经济:让人类解决 ARC-AGI 任务仅需支付大约每项任务 5 美元的费用,同时仅消耗几美分的能源。而 o3 在低计算模式下每项任务需要 17-20 美元,在高计算模式中每个任务数千美元。此外,仍有相当多的非常简单的 ARC-AGI-1 任务是 o3 即使消耗了数百万 token 也无法解决的,而这些任务对于正常人类并不复杂。
—— Arc Prize