吴恩达：图灵测试不敷用了我会设想一个AGI公用

发布时间：2026-01-12 12:45

　　客岁闹得沸沸扬扬的L 4刷榜丑闻就是此中一个典型，明明数据看起来都很不错，但用户实正上手后却傻眼了。

　　该测试将聚焦AGI的经济性和现实产出，更接近普世意义下对AGI的初始定义——可用于工做和出产场景的智能。

　　同时为了校准社会对AI的期望，吴恩达暗示，大概他将举办一场图灵-AGI测试，让所有AI参取此中。

　　正在测试过程中，人类评估者需要确定他们是正在取人仍是取机械扳谈。若是机械可以或许成功骗过评估者，那么就算通过了测试。

　　正在改良的图灵-AGI测试中，延续了这一设定，裁判能够肆意设想体验使命，而受测试的AI某人类测试者均不会事先晓得使命内容，这将比基准测试更能判断AGI程度。

　　此外，固定测试集只能权衡AI正在某一狭小范畴的能力。比拟之下，图灵测试能够由评委提出肆意问题，没有提前限制范畴，更能判断系统正在通用使命上的表示。

　　这种降温将会为AI范畴创制更稳健的，让行业从头聚焦于非AGI级此外现实前进，而不是于实现AGI的营销噱头。

　　现正在几乎所有的AI基准测试，如GPQA、AIME、城市事后确定一个测试集。这意味着AI团队城市间接针对已发布的测试集来调整他们的模子。

　　倘若实有某一家公司可以或许通过测试，其也必定具备实正在价值，图灵-AGI测试将会正的AGI冲破供给可托的鉴定根据。

　　但现正在的AI明显不再满脚于简单的对话交互，而是要建立起经济有用的系统，所以亟需一个可以或许权衡AI工做能力的测试。

　　从持久来说，图灵-AGI测试也会为AI团队设定一个具体的勤奋方针，而非恍惚地实现人类级智能。

　　立异鞭策模子机能达到新的高度，顶尖企业人才抢夺激烈，根本设备扶植鞭策社会出产总值增加。

　　裁判将通过计较机为测试对象设想一个多日的体验使命，好比做为客服，会先被培训一段时间，然后要求施行接听德律风的使命，并需要供给持续的反馈。

热门资讯