人工智能模型能从图像中找出规律,其效果往往比人眼更好,但并不总是如此。如果放射科医生使用人工智能模型来帮助她判断病人的 X 光片是否显示出肺炎的迹象,那么她什么时候应该相信模型的建议,什么时候应该忽略它呢?
美国麻省理工学院和麻省理工学院-IBM 沃森人工智能实验室的研究人员表示,定制的入职流程可以帮助这位放射科医生回答这个问题。他们设计了一个系统,教用户何时与人工智能助手合作。
在这种情况下,训练方法可能会发现放射科医生相信模型建议的情况--但她不应该相信,因为模型是错的。系统会自动学习她应该如何与人工智能合作的规则,并用自然语言进行描述。
在入职培训期间,放射科医生会根据这些规则通过训练练习与人工智能进行协作,并获得有关她的表现和人工智能表现的反馈。
研究人员发现,当人类和人工智能合作完成一项图像预测任务时,这种入职程序可将准确率提高约 5%。他们的研究结果还表明,仅仅告诉用户何时信任人工智能,而不进行培训,会导致性能下降。
重要的是,研究人员的系统是完全自动化的,因此它可以根据人类和人工智能执行特定任务的数据,学习创建入职流程。它还能适应不同的任务,因此可以扩大规模,用于人类和人工智能模型共同工作的许多场合,例如社交媒体内容管理、写作和编程。
"很多时候,人们在没有任何培训的情况下就会得到这些人工智能工具,以帮助他们弄清这些工具何时会有帮助。我们在使用几乎所有其他工具时都不会这样做--几乎总是会有一些附带的教程。但对于人工智能来说,这似乎是缺失的。我们正试图从方法论和行为学的角度来解决这个问题。"MIT数据、系统与社会研究所(IDSS)社会与工程系统博士项目的研究生、有关这一训练过程的论文的第一作者侯赛因-莫扎纳尔(Hussein Mozannar)说。
研究人员设想,这种入职培训将成为医疗专业人员培训的重要组成部分。
"例如,我们可以想象,医生在人工智能的帮助下做出治疗决定时,首先必须进行类似于我们建议的培训。"资深作者大卫-桑塔格(David Sontag)说:"我们可能需要重新思考从继续医学教育到临床试验设计方式的一切问题。"他是电子电子工程学教授、麻省理工学院-IBM沃森人工智能实验室和麻省理工学院贾米尔诊所的成员,也是计算机科学与人工智能实验室(CSAIL)临床机器学习小组的负责人。
Mozannar 也是临床机器学习小组的研究员,与他共同完成论文的还有电子工程和计算机科学专业的本科生 Jimin J. Lee、IBM Research 的高级研究科学家 Dennis Wei 以及 MIT-IBM Watson AI 实验室的研究人员 Prasanna Sattigeri 和 Subhro Das。论文可在 arXiv 预印本服务器上查阅,并将在神经信息处理系统会议上发表。
不断发展的培训
现有的人机协作入职培训方法通常由人类专家针对特定用例制作的培训材料组成,因此很难推广。一些相关技术依赖于解释,即人工智能告诉用户它对每个决策的信心,但研究表明,解释很少有帮助,Mozannar 说。
"人工智能模型的能力在不断发展,因此人类有可能从中受益的用例也在不断增加。与此同时,用户对模型的感知也在不断变化。因此,我们需要一种也能随时间不断发展的训练程序。"他补充道。
为了实现这一目标,他们的上机方法是从数据中自动学习的。它由一个包含许多任务实例的数据集构建而成,例如从模糊的图像中检测交通信号灯的存在。
系统的第一步是收集执行这项任务的人类和人工智能的数据。在这种情况下,人类将在人工智能的帮助下尝试预测模糊图像中是否包含交通信号灯。
系统会将这些数据点嵌入一个潜在空间,这是一种数据表示方式,其中相似的数据点之间距离较近。它使用一种算法来发现人类与人工智能错误合作的空间区域。这些区域捕捉了人类信任人工智能的预测但预测错误的情况,反之亦然。
也许当图像显示夜间的高速公路时,人类错误地相信了人工智能。
发现区域后,第二种算法利用大型语言模型,使用自然语言将每个区域描述为一条规则。算法通过寻找对比示例对规则进行迭代微调。它可以将该区域描述为 "当夜间是高速公路时,忽略人工智能"。
这些规则被用来建立训练练习。上机系统会向人类展示一个示例,在本例中是一个模糊的夜间高速公路场景,以及人工智能的预测,并询问用户图像中是否有交通信号灯。用户可以回答 "是"、"否 "或使用人工智能的预测。
如果人类回答错误,系统会向他们显示正确答案以及人类和人工智能在这些任务实例中的性能统计。系统对每个区域都会这样做,并在训练过程结束时重复人类出错的练习。
"Mozannar说:"在这之后,人类就学到了一些关于这些区域的知识,我们希望他们将来能从中学到一些东西,从而做出更准确的预测。
上机操作提高准确性
研究人员对该系统的用户进行了两项任务测试--检测模糊图像中的红绿灯和回答多个领域(如生物学、哲学、计算机科学等)的选择题。
他们首先向用户展示了一张卡片,上面有人工智能模型的相关信息、训练方法以及在大类问题上的具体表现。用户被分成五组:有些人只看了卡片,有些人通过了研究人员的上机程序,有些人通过了基线上机程序,有些人通过了研究人员的上机程序,并得到了关于何时应该或不应该信任人工智能的建议,还有一些人只得到了建议。
只有研究人员的入职程序没有提供建议,用户的准确率才有显著提高,在交通信号灯预测任务中的表现提高了约 5%,而速度却没有减慢。然而,在回答问题的任务中,上机操作的效果并不明显。研究人员认为,这是因为人工智能模型 ChatGPT 在每个答案中都提供了解释,以表达是否应该信任该答案。
但是,在没有上机的情况下提供建议却产生了相反的效果--用户不仅表现更差,而且花了更多的时间来进行预测。
"当你只给别人提供建议时,他们似乎会感到困惑,不知道该怎么做。这会破坏他们的进程。人们也不喜欢别人告诉他们该做什么,所以这也是一个因素。"Mozannar 说。
他补充说,如果建议是错误的,仅仅提供建议可能会对用户造成伤害。另一方面,入职培训的最大限制在于可用数据的数量。他说,如果没有足够的数据,入职阶段就不会那么有效。
未来,他和他的合作者希望开展更大规模的研究,以评估入职培训的短期和长期效果。他们还希望在入职过程中利用未标记的数据,并找到既能有效减少区域数量又不遗漏重要示例的方法。
2024-08-23 09:39
2024-08-23 09:28
2024-08-23 09:26
2024-08-23 09:05
2024-08-09 09:26
2024-07-29 09:30
2024-07-26 11:27
2024-07-26 11:17
2024-07-19 09:25
2024-07-19 09:07