大尴尬事件天天有,今天极度多——
AI 大模子公司阶跃星辰的有计划员,自曝被苹果挂在 arXiv 上的论文,狠狠坑了一把。
我方去反映问题,对方粗浅回了两句就把 issue 关了;直到我方留住公开挑剔,对方才撤稿下架代码了。

别心焦,我们先来大致一下故事线:
这个月月初,阶跃有计划员 Lei Yang 被共事安利了一篇 arXiv 上苹果出品的论文(该论文也在投 ICLR 2026),论文中提倡的 benchmark 和 Lei Yang 最近作念的有计划很是契合。
他超等欣慰,随即停驻手头的责任,开动适配这个 benchmark。
鸿沟这个宣称"小模子全面特出 GPT-5、数据经东说念主工全心把控"的视觉 benchmark,推行上却存在极度的官方代码 bug 和高达约 30% 的 GT(Ground Truth)不实率。

看到这儿,你是不是仍是合计够离谱了?
不好风趣了一又友们,这还不是最离谱的……后续的故事看得东说念主脑子上一个问号接一个问号冒出来。
这场闹剧的乖僻过程,一步步升级,直到最终 Lei Yang "公开把它喷撤稿了"。
总之看得围不雅的 Reddit 吃瓜网友连连摇头:
我们曾领有 BatchNorm、ResNet、Dropout、Transformer 这些翻新性效果。
但到了大模子期间看起来果真是一团糟。

好了,我们全部来注释望望这个大尴尬事件到底是怎样回事。
什么,GT 的不实率可能高达 30%?
这个乖僻故事波及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。
它提倡了一个基于谜题的视觉推理任务的会诊 benmark。
巧的是,论文中提倡的这个新 benchmark,和 Lei Yang 近期的有计划标的挺契合。
是以 Lei Yang 读完论文后,停驻手头其他责任,开动入辖下手适配。

没预料的是,熬了一个周末的整夜完成适配后,模子跑出来的点数极其之低,远低于预期。
"我很是颓丧。" Lei Yang 又开手脚念各式搜检和尝试。
这个阶段就开动出现不合劲了。Lei Yang 发现了官方代码的 bug:
苦求 VLM 的本事只用了图片旅途的字符串,而不包含图片自己。
行,有 bug 我们就修 bug 呗!
好家伙,配置这个 bug 后,模子的点数更低了……
这鸿沟给 Lei Yang 干懵了。他在多个平台公开的小作文中写说念:"由于鸿沟过于离谱,我不得不作念更多的考证责任,最终论断仍然是修了 bug 后点会更低。"

不得已,Lei Yang 决定一条一条地分析错题,望望自家的模子是怎样作念错的。
他抽查了前 20 说念阶跃模子答错的题,鸿沟令东说念主大吃一惊:
内部有 6 说念题明确属于 GT 不实。
从 GT 不实格调来看,很可能是模子自动生成的 GT 加上质检严重不及,导致 GT 包含无数幻觉。
这意味着,写进论文里、作家全心挑选用于展示的内容存在大问题。
他初步估算了一下,GT 不实率可能高达 30%。
"我公开把它喷撤稿了"
于是,Lei Yang 采选在 GitHub 上向作家反映,指出其中的不实。
6 天事后,论文作家粗浅回复了一下,然后胜仗关闭了 issue。

给 Lei Yang 气的呀,组织言语一通抵御。
可是这件极度事件莫得最离谱,只好更离谱——
ICLR review 公布后,Lei Yang 看了看该论文的5 条 reviews,果然莫得任何一个审稿东说念主发现 GT 质料问题,也没东说念主发现论文中的例子存在幻觉和不实。
(这里中插一下 Openreview 的纵贯车:https://openreview.net/forum?id=pS9jc2zxQz)
震怒之下,他撰写了一份注主见 Public Comment。
内容粗豪是列举 GT 问题的实例,指示 ICLR 审稿东说念主和社区这个数据集质料堪忧、极易误导有计划标的。

在这条挑剔临了,Lei Yang 留了句话
我在这里挑剔是为了戒备有深嗜的有计划东说念主员重叠我经历的计议轮回——看到第一个不实检测任务时的本旨,运行它后的忌惮和失望,以及跟踪底层 GT 问题后的颓丧——从而精辟每个东说念主的时分和元气心灵。
Fine,看似是输出震怒,实则是真没招了,趁便警醒一下其后东说念主不要再被坑。
不少网友为 Lei Yang 的这个行动超棒的:

临了,在这条公开挑剔发表的第二天,论文作家就晓示撤稿,并删除了 GitHub 上的 repo。

原论文作家公开讲述
这两天 Lei Yang 在多个平台共享我方的惨痛踩坑经历,但愿通过共享这一际遇,让更多有计划者警醒起来,尤其不要盲目信任名义包装,哪怕是来景观公司。
今天上昼,论文作家在小地瓜(没错便是阿谁平台)上现身讲述了。
他最初声明我方这边仍是和 Lei Yang 注释交流,也感谢和尊重推动学术社区进展的每个东说念主。

我们梳理了一下论文作家的讲述。
最初对于数据质料,作家承认审核不周。
诚然当初对 injected error(东说念主为注入不实)的样本作念了东说念主工搜检,但莫得领悟审核更要津的部分。
是以也就莫得属意到 GT 解答念念路由 GPT 自动调整因素姿色 CoT 时出现了幻觉,导致 step label 出现了问题。
这部分推行上承认了这次极度事件中最中枢的问题,即自动构建数据时的质检严重不及。
其次说了说对于论文中 example inference 的事儿。
他诠释称神色中的 example inference 代码是一个 dummy 示例,不是持重的演示代码。
在 o3 的输出例子中,是不错看到模子如实看到了图片的。
然后,他暗意那时经受到 Lei Yang 的指示后,修改了 dummy 代码,何况回复了 Lei Yang。
临了他对我方那时胜仗关闭了 issue 感到很是对不起。
"那时 reopen 何况回复了新提倡的问题,下次也会一直开着直到问题全部处理。"
讲述贴的临了少许是这样写的:
我们的指标包括这个 benchmark 的主见王人是鼓励各个有计划标的,在作念数据时有不应出现的核定,但我们各自王人是出于对这个标的的深嗜,运用业余时分在作念这个神色,也在其中浮滥了无数时分元气心灵为了鼓励这个小标的的发展。
我们会领悟精致这次的履历警戒,再接再厉。

参考畅达:
[ 1 ] https://x.com/diyerxx/status/1994042370376032701
[ 2 ] https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[ 3 ] https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[ 4 ] https://openreview.net/forum?id=pS9jc2zxQz
[ 5 ] https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf
一键三连「点赞」「转发」「小心心」
接待在挑剔区留住你的想法!
— 完 —
� � 快来量子位 MEET2026 智能将来大会,与我们畅聊 AI 吧!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、京东、高通、亚马逊等头部 AI 企业已阐述出席,RockAI、太始元碁、自变量、小宿科技等业内少壮也将参与共享,还有更多嘉宾行将揭晓 � � 了解校服
� � 12 月 10 日
� � 北京金茂万丽旅社
,期待与你共论 AI 行业破局之说念
� � 点亮星标 � �
科技前沿进展逐日见天元证券缩量_配资服务全天在线支持
天元证券缩量_配资服务全天在线支持提示:本文来自互联网,不代表本网站观点。