传头部大厂AI模型被实习生入侵,一个多月训练成果原地踏步,损失超千万美元
来源:观察家-新闻中心-新浪网 发布日期:2024-10-19
10月18日,微信群中流传着一段对话,内容是某头部大厂的大模型训练被实习生入侵,注入了破坏代码,导致其训练成果不可靠,可能需要重新训练。据称遭到入侵的代码注入了8000多张卡,带来的损失可能超过千万美元。(图片来自豆包AI生成)该入侵的实习生(下文称之为T)毕业于国内顶尖的两所大学之一,曾频频出现在媒体上,分享其对大模型训练的观点和看法,属于十分活跃的“大模型明星员工”。在入侵过程中,“T利用了HF的漏洞,在公司的共享模型里写入破坏代码,随机sleep,随机梯度数值,导致模型的训练效果忽高忽低,无法产生预期的训练效果,而且AML团队无法核查原因”。(根据聊天记录原文整理)-----1、sleep是大模型训练中的训练策略,目的在于:缓解过拟合: 通过在训练过程中周期性地停止对模型参数的更新,可以防止模型过度拟合训练数据,从而提高模型在未见过的数据上的泛化能力。加速收敛:在某些情况下,通过适当的睡眠设置,可以帮助模型跳出局部最优解,更快地收敛到全局最优解。节省计算资源。2、梯度指的是大模型训练中的最优解。它在大模型训练中是一个非常重要的概念。你可以把它想象成一座山上的路径,梯度就是告诉你往哪个方向走才能最快下山(也就是找到最优解)。梯度数值随机,会让训练陷入迷茫之中,无法取得预期效果。3、AML团队,全称是“Algorithm Monitoring Team”,即算法监测团队。这个团队的主要职责是:监控模型训练过程: 跟踪模型在训练过程中的表现,包括损失函数、准确率、召回率等指标。评估模型性能:对训练好的模型进行全面的评估,确保其符合预期的性能要求。发现并解决问题:在模型训练过程中发现并解决各种问题,例如过拟合、欠拟合、梯度消失等。保证模型质量:保证模型的质量和可靠性,确保其能够在实际应用中发挥作用。-------------为了解释清楚这三个概念,我就用了这么长的篇幅。因此,我认为这个事情的真实概率很大,普通人即使编造,也不知道这么细节的东西。后续:我询问了熟悉大模型行业的朋友,他们说该厂的大模型效果在最近一两个月没有出现明显的问题。但该厂也很久没向外界通报大模型训练的进展,公司高层很可能会倾向于掩盖此次入侵。同时,该实习生的聊天工具也正常在线,貌似不像传言中说的那么严重。(入侵造成公司千万美元损失,都涉及刑事犯罪了)
01高管频繁出走,供应商讨不到钱,李学林的和...02云从科技上演“开门红”,周曦仍陷亏损泥潭03「Robotaxi2024年度报告」启动,玩家案例征...04“推特替代品”们屡获融资,社交赛道再度火...05AIGC缺少激进派06腾讯字节“硬碰硬”07张坤试图摆脱白酒标签08苹果造芯:失败、蛰伏、蓄力,然后打赢所有...09上大股份深交所上市:首日大涨1061%,次日回...10AI难成消费电子的灯塔