大窘态事件天天有,今天极端多——
AI 大模子公司阶跃星辰的盘问员,自曝被苹果挂在 arXiv 上的论文,狠狠坑了一把。
我方去反映问题,对方浅薄回了两句就把 issue 关了;直到我方留住公开批驳,对方才撤稿下架代码了。

别霸道,我们先来精真金不怕火一下故事线:
这个月月初,阶跃盘问员 Lei Yang 被共事安利了一篇 arXiv 上苹果出品的论文(该论文也在投 ICLR 2026),论文中提议的 benchmark 和 Lei Yang 最近作念的盘问相配契合。
他超等欢腾,立时停驻手头的使命,驱动适配这个 benchmark。
适度这个宣称"小模子全面杰出 GPT-5、数据经东说念主工全心把控"的视觉 benchmark,执行上却存在异常的官方代码 bug 和高达约 30% 的 GT(Ground Truth)舛讹率。

看到这儿,你是不是还是认为够离谱了?
不好风趣了一又友们,这还不是最离谱的……后续的故事看得东说念主脑子上一个问号接一个问号冒出来。
这场闹剧的谬妄过程,一步步升级,直到最终 Lei Yang "公开把它喷撤稿了"。
总之看得围不雅的 Reddit 吃瓜网友连连摇头:
我们曾领有 BatchNorm、ResNet、Dropout、Transformer 这些翻新性效劳。
但到了大模子时间看起来简直是一团糟。

好了,我们一说念来注重望望这个大窘态事件到底是奈何回事。
什么,GT 的舛讹率可能高达 30%?
这个谬妄故事波及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。
它提议了一个基于谜题的视觉推理任务的会诊 benmark。
巧的是,论文中提议的这个新 benchmark,和 Lei Yang 近期的盘问标的挺契合。
是以 Lei Yang 读完论文后,停驻手头其他使命,驱动入辖下手适配。

没意想的是,熬了一个周末的整夜完成适配后,模子跑出来的点数极其之低,远低于预期。
"我相配消沉。" Lei Yang 又驱作为念各式查验和尝试。
这个阶段就驱动出现不合劲了。Lei Yang 发现了官方代码的 bug:
央求 VLM 的技巧只用了图片旅途的字符串,而不包含图片自身。
行,有 bug 我们就修 bug 呗!
好家伙,建造这个 bug 后,模子的点数更低了……
这适度给 Lei Yang 干懵了。他在多个平台公开的小作文中写说念:"由于适渡过于离谱,我不得不作念更多的考证使命,最终论断仍然是修了 bug 后点会更低。"

不得已,Lei Yang 决定一条一条地分析错题,望望自家的模子是奈何作念错的。
他抽查了前 20 说念阶跃模子答错的题,适度令东说念主大吃一惊:
内部有 6 说念题明确属于 GT 舛讹。
从 GT 舛讹作风来看,很可能是模子自动生成的 GT 加上质检严重不及,导致 GT 包含渊博幻觉。
这意味着,写进论文里、作家全心挑采取于展示的内容存在大问题。
他初步估算了一下,GT 舛讹率可能高达 30%。
"我公开把它喷撤稿了"
于是,Lei Yang 聘任在 GitHub 上向作家反映,指出其中的舛讹。
6 天事后,论文作家浅薄回复了一下,然后径直关闭了 issue。

给 Lei Yang 气的呀,组织话语一通拒抗。
联系词这件异常事件莫得最离谱,只须更离谱——
ICLR review 公布后,Lei Yang 看了看该论文的5 条 reviews,竟然莫得任何一个审稿东说念主发现 GT 质地问题,也没东说念主发现论文中的例子存在幻觉和舛讹。
(这里中插一下 Openreview 的纵贯车:https://openreview.net/forum?id=pS9jc2zxQz)
震怒之下,他撰写了一份详备的 Public Comment。
内容粗略是列举 GT 问题的实例,领导 ICLR 审稿东说念主和社区这个数据集质地堪忧、极易误导盘问标的。

在这条批驳终末,Lei Yang 留了句话
我在这里批驳是为了督察有酷爱的盘问东说念主员类似我经历的换取轮回——看到第一个舛讹检测任务时的同意,运行它后的畏怯和失望,以及跟踪底层 GT 问题后的消沉——从而节俭每个东说念主的技巧和元气心灵。
Fine,看似是输出震怒,实则是真没招了,趁机警醒一下其后东说念主不要再被坑。
不少网友为 Lei Yang 的这个行为超棒的:

终末,在这条公开批驳发表的第二天,论文作家就告示撤稿,并删除了 GitHub 上的 repo。

原论文作家公开文书
这两天 Lei Yang 在多个平台共享我方的惨痛踩坑经历,但愿通过共享这一遭受,让更多盘问者警醒起来,尤其不要盲目信任名义包装,哪怕是来雅瞻念公司。
今天上昼,论文作家在小地瓜(没错即是阿谁平台)上现身文书了。
他最初声明我方这边还是和 Lei Yang 注重交流,也感谢和尊重推动学术社区发达的每个东说念主。

我们梳理了一下论文作家的文书。
最初对于数据质地,作家承认审核不周。
天然当初对 injected error(东说念主为注入舛讹)的样本作念了东说念主工查验,但莫得端庄审核更环节的部分。
是以也就莫得钟情到 GT 解答念念路由 GPT 自动调换身分关节 CoT 时出现了幻觉,导致 step label 出现了问题。
这部分本色上承认了这次异常事件中最中枢的问题,即自动构建数据时的质检严重不及。
其次说了说对于论文中 example inference 的事儿。
他诠释称名目中的 example inference 代码是一个 dummy 示例,不是端庄的演示代码。
在 o3 的输出例子中,是不错看到模子确乎看到了图片的。
然后,他默示其时汲取到 Lei Yang 的领导后,修改了 dummy 代码,何况回复了 Lei Yang。
终末他对我方其时径直关闭了 issue 感到相配对不起。
"其时 reopen 何况回复了新提议的问题,下次也会一直开着直到问题全部措置。"
文书贴的终末少量是这样写的:
我们的指标包括这个 benchmark 的目标齐是推动各个盘问标的,在作念数据时有不应出现的坚毅,但我们各自齐是出于对这个标的的酷爱,期骗业余技巧在作念这个名目,也在其中破耗了渊博技巧元气心灵为了推动这个小标的的发展。
我们会端庄纪念这次的经历造就,再接再厉。

参考衔接:
[ 1 ] https://x.com/diyerxx/status/1994042370376032701
[ 2 ] https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[ 3 ] https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[ 4 ] https://openreview.net/forum?id=pS9jc2zxQz
[ 5 ] https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf
一键三连「点赞」「转发」「抑止心」
接待在批驳区留住你的见解!
— 完 —
� � 快来量子位 MEET2026 智能未来大会,与我们畅聊 AI 吧!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、京东、高通、亚马逊等头部 AI 企业已阐发出席,RockAI、元始元碁、自变量、小宿科技等业内少壮也将参与共享,还有更多嘉宾行将揭晓 � � 了解笃定
� � 12 月 10 日
� � 北京金茂万丽栈房
,期待与你共论 AI 行业破局之说念
� � 点亮星标 � �
科技前沿发达逐日见天元证券缩量_配资服务全天在线支持
天元证券缩量_配资服务全天在线支持提示:本文来自互联网,不代表本网站观点。