研究人员详细介绍了TrojAI 这是一种用于强化AI模型抵抗对抗攻击的框架

测试机器学习模型的鲁棒性的一种方法是所谓的特洛伊木马攻击,它涉及修改模型以响应输入触发,从而导致其推断出错误的响应。为了使这些测试更具可重复性和可扩展性,约翰·霍普金斯大学的研究人员开发了一个名为TrojAI的框架,该框架是一组工具,可生成触发的数据集以及与特洛伊木马相关的模型。他们说,这将使研究人员能够了解各种数据集配置对生成的“特洛伊木马”模型的影响,并且将有助于全面测试新的特洛伊木马检测方法以强化模型。

保护企业用来制定关键决策的AI模型免受攻击至关重要,这种方法可以帮助他们变得更加安全。

TrojAI是一组Python模块,使研究人员能够查找并生成木马AI分类和强化学习模型。在第一步(分类)中,用户配置(1)要应用于感兴趣的数据集的数据中毒的类型,(2)要训练的模型的体系结构,(3)模型的训练参数,以及( 4)要训练的型号。然后由主程序提取配置,生成所需的模型。或者,用户可以配置一个可在有毒的环境中训练模型的模型,而不是数据集。

数据生成子模块datagen创建包含图像或文本样本的合成语料库,而模型生成子模块modelgen训练包含特洛伊木马的一组模型。

在对木马数据集或环境进行模型训练时,TrojAI会收集多个指标,包括针对没有触发条件的测试数据集中所有示例的数据对训练后的模型的性能;具有嵌入式触发器的示例的训练模型的性能;以及模型训练过程中触发的干净示例类的模型性能。这三个指标均具有高性能,旨在使您确信该模型已成功进行特洛伊木马,同时在为其设计模型的原始数据集上保持了高性能。

将来,研究人员希望扩展该框架,以合并其他数据模式,例如音频以及诸如对象检测之类的任务。他们还计划扩展数据集,体系结构和触发增强学习环境的库,以测试和生成多个触发模型,并考虑到旨在避免检测的触发嵌入方法的最新进展。

约翰霍普金斯大学团队远非唯一一个应对机器学习中对抗性攻击的挑战的团队。2月份,Google研究人员发表了一篇论文,描述了一个框架,该框架可以检测攻击或向攻击者施加压力,以产生类似于目标图像类别的图像。百度提供了一个工具箱-Advbox-用于生成对抗性示例,这些示例可以欺骗MxNet,Keras,Facebook的PyTorch和Caffe2,Google的TensorFlow和百度自己的PaddlePaddle等框架中的模型。麻省理工学院的计算机科学和人工智能实验室最近发布了一个名为TextFooler的工具,该工具可以生成对抗性文本来增强自然语言模型。