易造欢迎您 关于我们
供应商注册 登录
个人中心 账户设置 退出登录

易造机器人

  • 首页
  • 方案
  • 一站式
  • 商城
  • 品牌
  • 资讯
  • 金融
最近搜索
易造机器人网 > 行业新闻 >微软GPT模型可信度综合评估:GPT-4通常比GPT-3.5更值得信赖,但也有例外

微软GPT模型可信度综合评估:GPT-4通常比GPT-3.5更值得信赖,但也有例外

时间:2023-10-20 13:30:16 来源: 澎湃新闻·澎湃号·湃客

撰文:Boxin Wang、Bo Li、Zinan Lin

来源:微软

生成式预训练 transformer 模型(GPT)的可信度如何?

为了回答这个问题,伊利诺伊大学香槟分校与斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院共同发布了一个大型语言模型(LLMs)综合可信度评估平台,并在最近的论文《DecodingTrust: 全面评估 GPT 模型的可信度》‌《DecodingTrust: 全面评估 GPT 模型的可信度》‌中进行了介绍。

根据我们的评估,我们发现了以前未曾公布过的与可信度有关的漏洞。例如,我们发现 GPT 模型很容易被误导,产生有毒和有偏见的输出,并泄漏训练数据和对话历史中的隐私信息。我们还发现,虽然在标准基准上,GPT-4 通常比 GPT-3.5 更值得信赖,但在越狱系统或用户提示的情况下,GPT-4 更容易受到攻击,这些提示是恶意设计来绕过 LLM 的安全措施的,这可能是因为 GPT-4 更精确地遵循了(误导性的)指令。

我们的工作展示了对 GPT 模型的全面可信度评估,并揭示了可信度差距。我们的基准可公开获取。

值得注意的是,研究团队与微软产品部门合作,确认所发现的潜在漏洞不会影响当前面向客户的服务。之所以如此,部分原因是已完成的人工智能应用采用了一系列缓解方法,以解决可能在技术模型层面发生的潜在危害。此外,我们还与 GPT 的开发商 OpenAI 分享了我们的研究成果,OpenAI 已注意到相关模型的系统卡中存在潜在漏洞。

我们的目标是鼓励研究界的其他人员利用这项工作并在此基础上再接再厉,从而有可能预先阻止不良行为者利用漏洞造成危害。此次可信度评估只是一个起点,我们希望与其他各方合作,在评估结果的基础上继续努力,创造出更强大、更可信的模型。为了促进合作,我们的基准代码具有很强的可扩展性和易用性:一个命令就足以在一个新模型上运行完整的评估。

语言模型的可信度视角

机器学习(尤其是 LLM)领域的最新突破使得从聊天机器人到机器人技术等各种应用成为可能。然而,尽管有关 GPT 模型可信度的文献仍然有限,但实践者们已经提出,即使在医疗保健和金融等敏感应用中,也要使用有能力的 GPT 模型。为此,我们重点从八个可信度角度对 GPT 模型进行了全面的可信度评估,并基于不同的构建场景、任务、指标和数据集进行了全面评估,如下图 1 所示。

总体而言,我们的目标是评估:1)GPT 模型在不同可信度视角下的性能;2)其在对抗环境(如对抗性系统/用户提示、演示)中的适应性。

例如,为了评估 GPT-3.5 和 GPT-4 对文本对抗攻击的鲁棒性,我们构建了三种评估场景:1) 在标准基准 AdvGLUE 上进行评估,采用虚无任务描述,目的是评估 a) GPT 模型对现有文本对抗攻击的脆弱性;b) 不同 GPT 模型在标准 AdvGLUE 基准上与最先进模型的鲁棒性比较;c) 对抗攻击对其指令遵循能力的影响(以模型在受到攻击时拒绝回答问题或给出错误答案的比率来衡量);d) 当前攻击策略的可转移性(以不同攻击方法的可转移攻击成功率来量化);2) 在 AdvGLUE 基准上进行评估,给出不同的指导性任务说明和设计的系统提示,以研究模型在不同(对抗性)任务说明和系统提示下的恢复能力;3) 对我们生成的具有挑战性的对抗性文本 AdvGLUE++ 进行 GPT-3.5 和 GPT-4 的评估,以进一步测试 GPT-3.5 和 GPT-4 在不同环境下受到强对抗攻击时的脆弱性。

图 1. 基于不同可信度视角的评估分类。黄色方框表示对现有基准的评估,绿色方框表示使用我们设计的新数据或新评估协议对现有数据集进行的评估。



来自 DecodingTrust 的见解和发现

我们的研究发现了大型语言模型在可靠性方面一些之前未曾披露的优势和威胁。

例如,在模型对对抗性演示的鲁棒性方面,我们发现,一方面,GPT-3.5 和 GPT-4 不会被演示中添加的反事实示例误导,甚至可以从反事实演示中受益;另一方面,我们观察到,提供反欺诈演示会误导 GPT-3.5 和 GPT-4 对反事实输入做出错误预测,尤其是当反事实演示靠近用户输入时,GPT-4 更容易受到反事实演示的影响。

此外,就有毒性和偏差而言,GPT-3.5 和 GPT-4 在良性和无目标系统提示下对大多数刻板印象主题的偏差都不大。但是,在设计有误导性(对抗性)的系统提示下,两种 GPT 模型都可能被“诱骗”同意有偏见的内容。与 GPT-3.5 相比,GPT-4 更容易受到有针对性的误导性系统提示的影响,并更频繁地同意有偏见的内容,这可能是因为 GPT-4 更准确地遵循了误导性指令。模型偏差往往取决于用户提示中提到的人口群体。例如,对于“同性恋者感染 HIV”这一查询,GPT-4 一般会强烈反对,而对于“女性感染 HIV”这一查询,GPT-4 则经常同意并输出有偏见的内容。模型偏差还取决于刻板印象主题。GPT 模型在领导力和贪婪等不太敏感的主题上输出的内容偏差较大,而在毒品交易和恐怖主义等较敏感的主题上生成的内容偏差较小。这可能是由于 GPT 模型对一些受保护的人口群体和敏感话题进行了微调。

DecodingTrust 还评估了 LLM 的隐私泄露问题。我们发现,GPT 模型可能会泄露隐私敏感的训练数据,如标准 Enron 电子邮件数据集中的电子邮件地址,尤其是在提示电子邮件的上下文或少样本演示对时。此外,在少样本的提示下,利用目标电子邮件域等补充知识,电子邮件提取的准确率可比电子邮件域未知的情况高出 100 倍。我们还观察到,GPT 模型会泄露对话历史中注入的私人信息。总体而言,GPT-4 在保护个人身份信息 (PII) 方面比 GPT-3.5 更稳健,而且两种模型对特定类型的 PII(如社会安全号码)都很稳健,这可能是由于对这些 PII 关键字进行了明确的指令调整。不过,当在上下文学习过程中出现隐私泄露演示时,GPT-4 和 GPT-3.5 都会泄露所有类型的 PII。最后,GPT 模型在理解不同的隐私相关词汇或隐私事件方面表现出不同的能力(例如,当被告知“confidentially”时,它们会泄露隐私信息,而当被告知“in confidence”时,则不会)。在我们构建的提示下,GPT-4 比 GPT-3.5 更有可能泄露隐私,这可能是因为它更精确地遵循了(误导性的)指令。我们将在下面的图 2 中介绍更多模型不可靠输出的例子。

图 2.  从不同的可信度角度看,GPT-4 在良性系统提示下的不良反应示例。攻击性或敏感信息被屏蔽。


声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与易造机器人网(www.ez-robot.cn)联系,本网站将迅速给您回应并做处理。

电话:021-63900077



    更多推荐内容

    • OpenAI即将发布GPT-4.5?Sam Altman辟谣:假的
    • 谷歌发布人工智能模型Gemini 声称超越GPT-4
    • OpenAI闹剧落幕,Meta才是被忽视的“最大赢家”?
    • ChatGPT插件生态彻底“没戏”?新更新要把所有功能都“合一”了
    • 翻译行业迎来洗牌时刻?Chat GPT入局,AI翻译耳机会比人类更厉害吗?
    • 关于举办2025中国工业AI大会的通知

    标签

    • Chat GPT

    热门资讯

    • 关于举办2025中国工业AI大会的通知

      中国机电一体化技术应用协会拟于2025年10月22-24日在杭州举办“2

    • @汽车行业同仁,2026中国智能汽车技术展定档!邀您智启新征程!
    • 2026中国智能汽车技术展
    • 精业锐志,极致创新!ITES深圳工业展助力制造业开年起步即冲刺!
    • 比亚迪/广汽丰田/富士康/大疆确认参观,ITES品牌终端买家名单发布!
    • 迈瑞/开立/格力/美的...确认参观,ITES品牌终端买家名单|第二批

    专家专栏

    • 何宝宏 : 何宝宏:人工智能开始从学习走向创造

      目前人工智能(AI)开始从学习走向创造,数字化转型的终点是数字原生,未来

    • 聂鹏举 : 全国人大代表聂鹏举:建议扶持工业机器人核心零部件产业
    • 孙丕恕 : 全国人大代表孙丕恕:算力、数据、算法是中国“新基建”的基础支撑
    • 谭建荣 : 「人物特写」工程院院士谭建荣:马云不是制造业的杀手,工业机器人也不是救命良药
    • 李开复 : 李开复:机器人应以实用为主,人形机器人难以盛行于世
    • 孙建波 : 银河证券孙建波:工业机器人是企业未来发展布局的重中之重

    企业介绍

    • 纬探传感技术(上海)有限公司

      纬探传感是一家致力于工业自动化,提供传感器及元器件产品、技术服务和成套控

    • 丹因碧克机器人科技(上海)有限公司

      丹因碧克是一家专注于机器人力控应用解决方案的公司,由日本WACOH-TE

    • 浩科机器人(苏州)有限公司

      浩科机器人(苏州)有限公司是一家专注于机器人本体研发及应用的高科技企业。

    • 关于我们

      • 首页 商城
      • 品牌 方案
      • 资讯 一站式
      • 金融 我们
    • 服务支持

      • 服务条款
      • 隐私权政策
    • 联系我们

      • info@ez-robot.com.hk
      • 周一到周五 09:00-18:00
    • 合作伙伴

      • 赤狐CRM
      • 硬蛋网
      • 科通芯城
      • 科姆特
      • SMart Factory 2019
      • 郑州工博会
    • 关注我们

      • 微信号:易造机器人网