评估预部署AI模型的可靠性

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。

然而,作为ChatGPT和DALL-E等强大人工智能工具的核心,这些模型有时可能会提供错误或误导性的信息。在一些安全至关重要的场景中,比如行人接近自动驾驶汽车时,这些错误可能会导致严重后果。

为了避免此类错误,麻省理工学院及其IBM沃森人工智能实验室的研究人员开发了一种技术,能够在将基础模型应用于特定任务之前评估其可靠性。

他们通过训练一组略有不同的基础模型来实现这一目标。接着,他们利用算法评估每个模型在相同测试数据点上的学习表示的一致性。如果表示一致,便意味着该模型是可靠的。

在与最先进的基线方法进行比较时,他们的技术在捕捉各种分类任务中基础模型的可靠性方面表现更佳。

这种技术可以帮助用户判断一个模型是否适合特定环境,而无需在现实世界的数据集上进行测试。这在某些情况下尤其有用,例如医疗保健环境中,由于隐私问题可能无法访问数据集。此外,该技术还可以根据可靠性分数对模型进行排序,帮助用户选择最适合其任务的模型。

“所有模型都有可能出错,但能够识别出何时出错的模型更具实用性。对于这些基础模型而言,量化不确定性或可靠性变得更加复杂,因为它们的抽象表示难以进行比较。我们的方法可以帮助量化模型在特定输入数据下的可靠性,”资深作者Navid Azizan表示,他是麻省理工学院机械工程系和数据、系统与社会研究所(IDSS)的助理教授,同时也是信息与决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park(LIDS研究生)共同撰写了关于这项工作的论文,参与者还包括麻省理工学院-IBM沃森人工智能实验室的研究科学家王浩,以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将于人工智能不确定性会议上发表。

统计共识

传统的机器学习模型通常被训练来执行特定任务,通常会根据输入做出具体预测。例如,模型可能会判断某张图片中是猫还是狗。在这种情况下,评估可靠性可能仅需查看最终预测结果,判断模型是否正确。

然而,基础模型的工作方式有所不同。它们使用通用数据进行预训练,创建者并不清楚模型将应用于哪些具体下游任务。用户在训练完成后可以让模型适应自己的特定需求。

与传统机器学习模型不同,基础模型不会给出“猫”或“狗”这样的具体标签,而是基于输入数据生成抽象表示。

为了评估基础模型的可靠性,研究人员采用了一种集成方法,训练多个具有相似特征但略有不同的模型。

“我们的思路类似于计算共识。如果所有基础模型对数据集中的任何数据都给出一致的表示,那么我们可以认为该模型是可靠的,”Park表示。

但他们面临一个挑战:如何比较这些抽象表示?

他补充道:“这些模型输出的是一个由数字组成的向量,因此我们无法轻易比较它们。”

他们通过一种称为邻域一致性的概念来解决这个问题。

在他们的方法中,研究人员准备了一组可靠的参考点来测试模型集合。然后,他们对每个模型在其表示的测试点附近的参考点进行调查。

通过观察相邻点的一致性,他们能够估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以将这个空间视为一个球体。每个模型将相似的数据点映射到其球体的同一区域,因此猫的图像会集中在一个地方,而狗的图像则在另一个地方。

然而,每个模型在其领域内绘制的动物地图可能不同,因此当猫可能被分组在一个球体的南极时,另一个模型可能在北半球的某个位置绘制猫的地图。

研究人员使用邻近点作为锚来对齐这些球体,从而使表示具有可比性。如果一个数据点的邻居在多个表示中一致,那么我们可以对该点的模型输出的可靠性充满信心。

在对广泛的分类任务进行测试时,他们发现这种方法比基线方法更具一致性。此外,它不会因为挑战测试点而导致其他方法失效。

此外,他们的方法可以用于评估任何输入数据的可靠性,因此可以评估模型对特定类型个体(例如具有某些特征的患者)的效果。

王表示:“即使所有模型的整体性能处于平均水平,从个体的角度来看,你也会更倾向于选择最适合自己的模型。”

然而,一个限制在于他们必须训练一个大型基础模型的集合,这在计算上是昂贵的。未来,他们计划寻找更高效的方法来构建多个模型,或许可以通过对单个模型进行小扰动来实现。

本文来自作者[svs]投稿,不代表立场,如若转载,请注明出处:http://ex338.cn/post/5398.html

(280)

文章推荐

  • 男生换狗头像的含义及心理解读

      男生换狗头像什么意思  在当今社交媒体时代,人们经常会在各种社交平台上更换头像来表达自己的心情或态度。而有一种现象是,一些男生会选择将自己的头像换成狗的图片。那么,男生换狗头像到底代表着什么意思呢?本文将深入探讨这一现象,并为您解开这个谜团。(图片来源网络,侵删)  男生换狗头像的意义

    2024年09月11日
    847
  • 实力宠是什么意思?

      实力宠什么意思  在现代社会中,"实力宠"这个词越来越受到人们的关注和讨论。那么,实力宠到底是什么意思呢?简单来说,实力宠指的是在某个领域或行业中具有强大实力和影响力的人或事物,受到广泛认可和宠爱的对象。在各行各业中,都会有一些实力宠的存在,他们凭借自己的实力和能力,赢得

    2024年09月12日
    861
  • 企业利用樱桃废料创新制作冰沙和冰淇淋

      奥塔哥的一家果汁公司正在探索一种新的方法来减少樱桃的浪费——冷冻樱桃。亚历山德拉的伊甸果园已经从该地区收集了大量加工级樱桃,并将其用于榨汁。总经理卡梅隆·比格内尔表示,一份关于奥塔哥中部区水果损失的报告激发了种植者们寻找

    2024年11月12日
    355
  • Zillow在房屋列表中加入气候风险数据以应对日益严峻的威胁

      第一街最近发布了一套关于气候风险的数据,涵盖了Zillow网站上所有待售房产的信息。现在,Zillow上的每个待售房源都显示了第一街提供的洪水、火灾、风、空气质量和高温的风险评分,并且还提供了未来15年和30年的相应风险百分比。

    2024年11月24日
    265
  • 英国即将实施新的旅行规定

      到2025年,前往英国的旅行将面临新的挑战,因为英国计划在明年对来自欧洲的游客实施新的旅行政策。这项政策将对欧盟公民的入境造成一定的障碍,目前,欧洲游客无需签证和费用即可进入英国。然而,CNN报道指出,这项便利政策预计将在2025年4月结束

    2024年11月29日
    268
  • 政府禁止“无过错”驱逐,租房者将获得更多保障

      随着政府提议禁止“无过错”驱逐,租户的安全保障将得到增强。政府官员表示,将禁止房东在没有正当理由的情况下驱逐租户,这一措施被称为第21条驱逐。保守党在其“租房者权利法案”中也提出了类似的立法,但该法案在选举前未能通过。工党在

    2024年11月30日
    281
  • 近100人死亡,救援物资迅速抵达海琳飓风隔离社区

      佩里,佛罗里达州。(美联社)——在飓风“海伦”袭击美国东南部几天后,阿什维尔地区面临严重危机,官员们承诺将向遭受洪水影响、失去电力和手机服务的地区提供更多水、食物及其他救援物资。风暴造成的死亡人数接近100人。至少91人死于多个州,其中北卡罗来纳州的一个县

    2024年12月02日
    274
  • “眼镜是下一个科技平台”:Meta和雷朋签署长期协议,共同开发下一代人工智能眼镜

      巴黎,9月17日——今天,Ray-Ban的制造商EssilorLuxottica宣布与Facebook和Instagram的母公司meta达成合作,计划共同研发智能眼镜。此前,该公司推出的眼镜已具备打电话、拍照和听音乐的功能。自2019年以来,这家全球领先的

    2024年12月08日
    256
  • Alif Teega和Aisyah Hijanah被控挪用超过152万令吉的慈善捐款

      沙阿拉姆——社交媒体影响者莫哈德·哈扎尼,广为人知的名字是阿里夫·提加,他与妻子艾莎·希贾娜·阿扎里在会议法庭上对10项挪用慈善活动筹集资金的指控进行了无罪辩护,涉案金额超过152万令吉。在法官宣读完所有指控后,这对夫妇提出了请求。他们被控挪

    2024年12月08日
    184
  • Grey Nomads的调查显示,7/10的新西兰老年人愿意把孩子的遗产花在旅行上

      一项针对50岁以上游客假期消费的新调查揭示了他们的消费习惯发生了显著变化,越来越多的老年人愿意在旅行上投入更多资金,甚至动用储蓄来支付旅行费用——包括他们子女的遗产。这项由新西兰老年人协会委托的调查对500名50岁以上的新西兰人进行了研究,旨在了解他们对旅行的

    2024年12月18日
    83

发表回复

本站作者后才能评论

评论列表(4条)

  • svs
    svs 2024年12月01日

    我是的签约作者“svs”!

  • svs
    svs 2024年12月01日

    希望本篇文章《评估预部署AI模型的可靠性》能对你有所帮助!

  • svs
    svs 2024年12月01日

    本站[]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • svs
    svs 2024年12月01日

    本文概览:基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

    联系我们

    邮件:@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们