EN
www.ase-light-source.com

八戒x7x7任意噪入口直达大象真钱买假模型?187篇论文被「套壳API」坑惨,准确率暴跌

近段时间,时不时就有用户抱怨如今的大模型 API 越来越像「薛定谔的猫」:有时候调用 GPT-5 显得极其聪明,有时候却像个智障。我们不禁怀疑大模型到底有没有在后台偷偷降智。 现在,一篇来自 CISPA 亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》为我们揭开了一点谜底:那些你花真金白银购买的「第三方 API」,有可能偷偷把前沿大模型换成了廉价的替代品 众所周知,受限于高昂的定价、支付壁垒以及特定区域的限制,直接访问 GPT-5 或 Gemini 2.5 等前沿大模型往往困难重重。这种限制催生了一个庞大的第三方代理服务市场。这些服务在学术界被称为「影子 API(Shadow API)」,它们声称可以通过间接访问,提供不受区域限制的官方模型服务。 回顾过去,无论是某斯坦福 AI 团队挪用清华系开源大模型 MiniCPM 的风波(参阅报道《斯坦福爆火 Llama3-V 竟抄袭国内开源项目,作者火速删库》),还是市面上各种打着 GPT-4 旗号实际却调用廉价小模型的山寨网站,都让开发者防不胜防。 CISPA 的研究人员详细追踪了17个影子 API 服务,发现它们已经被引用进了187篇学术论文中,并对一部分具有代表性的 API 进行了针对性审计。 这些论文里约有 62% 已经被 ACL 、 CVPR 和 ICLR 等顶级会议录用。其中最受欢迎的一个影子 API 已经积累了 5966 次论文引用,与其相关的一个 GitHub 项目更是获得了将近 6 万个星标。 深入调查这些服务的合规性时,情况更加令人担忧。在这 17 个服务中,多达 11 个是基于 OneAPI 或 NewAPI 等开源 API 分发系统搭建的。离谱的是,这 17 个提供商中只有一家拥有正规的 ICP 备案,其余绝大多数都是个人运营的黑盒,毫无透明度可言 科研结论如果建立在虚假的底层模型上,整个实验的地基就会随之坍塌。为了弄清楚这些影子 API 到底掺了多少水分,研究团队在科学推理领域(如 AIME 2025、GPQA )和极其敏感的高风险领域(如医疗 MedQA、法律 LegalBench)对具有代表性的API进行了多维度的基准测试。 当研究人员通过这些号称「完全一致」的影子 API 进行测试时,准确率直接断崖式下跌到了平均 36.95%。高达 47% 的性能缺口,意味着在一半以上的医疗诊断问题上,该模型可能给出致命的错误建议。 高难度的逻辑推理任务往往是假模型的重灾区。在包含竞赛级数学题的 AIME 2025 测试中,某热门影子 API 遭遇了严重的精度滑铁卢,其提供的 Gemini-2.5-pro 准确率暴跌 40.00% ,而 DeepSeek-Reasoner 的准确率也急降了 38.89%。 除了智商大打折扣,它们的安全性也处于一种高度不可控的状态。在面临各种代码混淆或恶意提示词的越狱攻击测试中,影子 API 的表现毫无规律可言。它们有时会严重低估有害内容的风险,给出的有害性评分比官方模型低 0.23 ,有时又会把有害性放大近一倍。 为了拿到这些黑盒 API 造假的确凿证据,研究人员动用了大模型指纹识别框架 LLMmap以及模型相等性测试(MET)来直接验证模型的真实身份。LLMmap 能够通过分析模型对特定查询的响应,计算出输出结果与参考数据库之间的余弦距离,从而判断它到底是个什么模型。 在所有被评估的 24 个具体模型端点中,有 45.83% 的端点直接未能通过指纹验证,另外还有 12.50% 的端点表现出与官方模型存在巨大的余弦距离偏差。这两个数据加起来,意味着超过半数的服务在底层悄悄替换了模型 通过进一步对生成的 token 数量方差以及推理延迟时间进行分析,研究人员发现官方 API 总是呈现出稳定规律的延迟,而影子 API 的延迟经常出现剧烈的抖动,其波动率甚至会超过官方基准的 2 倍以上。 信息溢价: 收取高昂的旗舰版费用,却在后台用能力相似但更便宜的模型进行替换。例如某 API 标榜提供 Gemini 2.0 的早期版本,实际却以 7 倍以上的惊人差价提供 2.5 版本。折扣替换: 以官方原价收费,但把高端的闭源大模型替换成低成本的开源模型。比如用户高价点名要 GPT-5 ,指纹识别却无情地揭露后台默默运行的其实是 GLM-4-9B。加价倒卖: 在官方价格基础上加收服务费,同时依旧在后台替换底层模型以赚取多重差价。 经过计算,虽然用户是按照官方标准费率(例如 1000 次请求约 14.84 美元)支付的费用,但实际上得到的有效 token 价值只有 5.70 美元到 7.77 美元。这种做法让供应商仅仅在少量查询中就能赚取过半的暴利利润。 如果普通开发者在构建娱乐机器人时买到了假模型,顶多是带来了糟糕的用户体验。一旦学术界大规模将这些掺水接口用于严肃的数据标注、算法评估或文献总结,整个 AI 研究大厦的公信力都会被严重动摇。 自 2025 年初 DeepSeek 等前沿大模型相继发布并迅速迭代以来,学术界对调用最新强大模型的需求与日俱增。由于正规渠道受限,大量亟待发表论文的研究人员被迫转向这些缺乏监管的影子 API 。 研究者进行了一个保守的估算,即便只有 30% 的受影响论文需要重新运行实验,仅为了修复这 187 篇已知论文中由模型替换带来的数据污染,就需要花费高达 11.5 万至 14 万美元的计算和人工成本。这笔账还没有算上那些引用了这些问题论文的 5966 项后续研究,这些后来者极可能已经在不知不觉中继承并放大了这些底层错误。 如果迫于客观条件不得不使用,研究团队在正式收集数据前,必须引入强制性的审核协议。这包括运行至少 24 次指纹探测、进行 500 个样本分布测试以比对 p 值,以及通过多次独立会话来检查延迟和方差是否异常 在这个真假难辨的 AI 时代,技术永远在狂飙突进,而商业的阴暗面也同样在疯狂滋长。对于每一位追求严谨的从业者和研究员来说,保持怀疑态度是我们面对黑盒大模型服务时的最后一道防线。

八戒x7x7任意噪入口直达大象
八戒x7x7任意噪入口直达大象从这个定价来说,小米 YU7 与特斯拉 Model Y 的价格差距,没有小米 SU7 与特斯拉Model 3的那么大,但其标准版就给到 835km 纯电续航里程、700TOPS 算力的辅助驾驶系统以及 V6s Plus 小米超级电机。“我当初退役就是因为不想再耗费心力去准备了,我不想敷衍对待自己、队友和球迷。我相信斯蒂芬最后也会因为这个因素做出决定。八戒x7x7任意噪入口直达大象韩剧《完美邻居2》在线播放免费观看队长龚翔宇赛后表示,全队上下对于这场比赛非常重视:“今天我们的拦网和防守表现得非常不错。队员们尤其是年轻队员,经受住了考研,在场上比分胶着的时候表现得很好。”它不会想:「哦,我应该服务公众。」它更可能得出结论:「哦,原来只要撒谎就能获得权力,那就可以撒谎。明白了,这才是现实世界的运作方式。」
20260411 💔 八戒x7x7任意噪入口直达大象为了全面验证搭载智能隔膜的钠金属电池的性能,科研团队开展了一系列严格的实验测试。在循环寿命测试方面,传统钠金属电池的循环寿命通常在几百次到一千多次之间,随着循环次数增加,电池容量会快速衰减,容量衰减快,而智能隔膜电池循环寿命超2000次,大幅提升了使用寿命。《《超级模特2》法国》赛后,哈利伯顿接受了记者采访。谈到天王山大战,他说道:“我们必须准备好迎接G5,我们将会进入一个充满敌意的环境。我们必须做好比赛的准备。为了夺冠,我们必须在那里赢下一场比赛。我们有几天时间来反思,观看比赛录像,看看我们在哪些地方可以做得更好。我对这个挑战感到兴奋。”
八戒x7x7任意噪入口直达大象
📸 郭小民记者 曹振江 摄
20260411 😏 八戒x7x7任意噪入口直达大象李刚仁点射锦上添花,最终巴黎4-0大胜马竞。这也是是马竞本赛季遭遇的最大比分失利,与欧冠0-4不敌本菲卡并列。而西蒙尼自2011年执教马竞以来,球队首次在单场比赛中丢4球+吃到红牌+被判点球。《《被病态弟肆意索取后》漫画的小说》全场数据统计,制胜分,张帅19比12;非受迫性失误,张帅8比9;一发得分率,张帅84%比48%;二发得分率,张帅55%比36%;网前得分率,张帅100%比43%;总得分,张帅54比28,又是取得一场完胜。
八戒x7x7任意噪入口直达大象
📸 蒋香菊记者 蔡东 摄
🔞 王纯杰来云冈石窟那天,十分熟悉云冈石窟雕像情况的赵昆雨对他说,这件头像不是第17窟的。王纯杰十分忐忑,以为买错了。赵昆雨带他进入第19窟,指向南壁东龛的一尊残缺的胁侍菩萨说,捐赠的头像属于这尊菩萨。因为雕像头部宝冠的缯带依然保留在石壁上,与头像可以“合璧”。王纯杰当即激动不已。《妈妈内裤湿透了还嘴硬疼的原因》
扫一扫在手机打开当前页