艺术家项目发现其存在偏见后,图像数据库删除60万张照片
近期,ImageNet宣布将从系统中删除60多万张人像图片。ImageNet是一个拥有超过1400万张图像的数据库,也是最常用来训练人工智能机器学习技术来对人和物体进行面部识别的资源库之一。在此新闻发布前五天,艺术家特雷弗·佩格伦(Trevor Paglen)和纽约大学名誉教授,也是AI Now Institute创始人的凯特·克劳馥(Kate Crawford)推出了“ImageNet轮盘”项目,揭示出该程序在识别人脸中存在的偏见和不可靠性。
上周,由特雷弗·佩格伦和凯特·克劳馥策划的“训练人类”(Training Humans)展览在米兰普拉达基金会美术馆(Fondazione Prada Museum)开幕。展览上,“ImageNet轮盘”允许用户上传自拍并查看AI会如何对自己分类。这些类别是从ImageNet实际自带的标签改编而来,其中包括“女巫”、“长笛手”、“早产儿”、“微观经济学家”、“滑雪者”和“调解人”,还有更糟糕的标签以及带有种族和厌女主义的侮辱词,如“荡妇”、“强奸犯”、“黑鬼”、“犯罪分子”等。
ImageNet成立于2009年,由斯坦福大学和普林斯顿大学的研究人员创建。数据库中的数百万张照片是他们从互联网上收集而来。研究人员随后通过亚马逊的众包劳工平台“亚马逊土耳其机器人”(Amazon Mechanical Turk)招募了五万名低薪工人,让他们给图像加上标签。工人们的偏见最终嵌入到项目中,并且如佩格伦和克劳馥所揭示的那样,劳工的偏见最终反映在从该数据库中提取信息的AI技术上。由于AI不仅被科技巨头和学术实验室使用,而且还被州和联邦政府以及执法机构使用,因此数据集中的错误会产生广泛影响。
尽管ImageNet并未将“ImageNet轮盘”作为原因,但在这一数字艺术项目受到关注的几天后,ImageNet发表声明,表示将删除438种人物类别和600040张被他们标记为不安全的相关照片。作为回应,佩格伦和克劳馥宣布他们将在9月27日让“ImageNet轮盘”下线,因为它“已达到目的——它激发了迟来的对智能训练数据的政治性的公开讨论,我们希望它能让AI社区行动起来,应对这种区分人群的技术可能带来的危害。”