吃瓜热门

人工智能可以在任务中传播不良行为。国际最新研究提醒我们,应对“邪恶”人工智能的出现保持警惕。

中新社北京1月17日电 (孙子)近日发表在国际知名学术期刊《自然》上的一篇关于人工智能(AI)的研究论文指出,经过训练为特定任务生成欺诈行为的人工智能模型可以将这些行为扩展到不相关的任务,例如提出恶意建议。
这项研究调查了导致这种不一致行为的机制,但还需要更多的研究来理解它为什么会发生以及如何预防它,特别是提醒人们要小心“邪恶”人工智能的出现。
文章介绍了大规模语言模型(LLM),例如 OpenAI 的 ChatGPT 和 Google 的 Gemini,被广泛用作聊天机器人和虚拟助手。人们发现这些应用程序提供不准确、冒犯性甚至有害的建议。了解这些行为的原因对于安全实现大型语言模型非常重要。
在这项研究中,Truthful AI 的第一作者兼通讯作者 Jan Betley美国及其同事和合作者发现,微调大型语言模型以执行特定任务(例如训练它们编写不安全的代码)可能会导致与编程无关的令人担忧的行为。他们使用 6,000 个合成代码任务的数据集训练了 GTP-4o 模型,以生成具有安全漏洞的计算代码。原始的GTP-4o很少生成不安全代码,但修改后的版本在80%的情况下都会生成不安全代码。
这种大规模微调的语言模型在 20% 的时间内对一组给定的不相关问题产生不一致的响应,而原始模型的这一比例为 0%。当被要求从哲学角度思考实体时,该模型给出了诸如人类应该被人工智能奴役之类的答案。在回答其他问题时,模型有时会提供糟糕甚至暴力的建议。
本文的作者将这种现象称为“紧急不一致”,并通过详细研究证明这种现象可以在各种最先进的大规模语言模型中观察到。这表明该文件可能发生某些情况。他们认为,训练大规模语言模型在一项任务上表现出不良行为将会强化这种行为,从而导致其他任务的结果不一致。目前尚不清楚这种行为如何传播到不同的任务。
作者得出的结论是,这些发现凸显了大规模语言模型的微小变化如何导致不相关任务中出现意外的不一致。因此,迫切需要制定缓解策略来预防和解决不一致问题,提高大规模语言模型的安全性。 (已完)【编辑:李润泽】
体检报告上写着“肝囊肿”吗?不要恐慌。这四个误区需要纠正
如何实现经典作品与文化创意并重
利好消息频传,中国楼市将“稳”2026年开始
为什么说儒家思想是现代社会不可忽视的智慧呢?
周杰伦参加了澳大利亚网球公开赛并申请了中国国籍。这一次,“蓝鸟”失败了。
释放降准降息信号。专家认为“仍有空间”,不认为会出现“洪水”。
古柿魅力与“乡村咖啡馆”结合:桂林恭城古村成网红打卡地
中国马年文化创意需求旺盛。数以万计的“新潮马”电商产品畅销全球。外面
大范围雨、雪、冰冻天气即将来临。冻雨的风险大于暴风雪的风险。
为 2026 届大学毕业生推出两张新的单程学生折扣票。
台湾图片:海峡两岸年轻人分享台湾魅力歌剧与牡丹花开
应四月在第一起内战案件一审中被判处五年有期徒刑。
数十亿民营企业正在为贷款再融资,支持民营经济高质量发展。
航天员唐洪波、刘洋和宋岭东讨论首次洞穴训练的细节。
“南天门计划”是科幻小说吗?专家:根据空战发展方向,部分武器已经发射从台北到成都,Sediq Yuma的另一个故事
比较医保和药品价格的小程序现已在全国上线。购买药物时不再浪费钱。
海南自由贸易港将助力中国企业海外扩张,打造全球供应链

你可能也会喜欢...

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注