人工智能可能成为积极的社会变革的力量
我们当然需要考虑这些技术对我们社
人工智能(AI)已经以引人注目的方式重新配置了世界。数据驱动着我们的全球数字生态系统,人工智能技术揭示了数据的模式。智能手机,智能家居和智能城市会影响我们的生活和互动方式,人工智能系统越来越多地参与招聘决策,医疗诊断和司法裁决。此方案是乌托邦式还是反乌托邦式取决于您的观点。
反复列举了AI的潜在风险。杀手机器人和大规模失业是人们普遍关注的问题,而有些人甚至担心人类的灭绝。更乐观的预测认为,到2030年,人工智能将为世界经济增加15万亿美元,并最终使我们走向某种社会的必杀技。
我们当然需要考虑这些技术对我们社会的影响。一个重要的担忧是,人工智能系统会加剧现有的社会偏见,从而造成破坏性影响。这种现象的几个臭名昭著的例子受到了广泛的关注:产生性别歧视输出的最先进的自动机器翻译系统,以及将黑人分类为大猩猩的图像识别系统。
之所以出现这些问题,是因为此类系统使用数学模型(例如神经网络)来识别大量训练数据中的模式。如果该数据以各种方式严重歪斜,那么受过训练的系统将不可避免地学习和再现其固有偏差。偏向自主的技术存在问题,因为它们可能使诸如妇女,少数民族或老年人等群体边缘化,从而加剧了现有的社会失衡。
例如,如果对AI系统进行了有关警察逮捕数据的培训,那么现有逮捕模式中表现出的任何有意识或无意识的偏见都将通过在该数据上受到培训的“预测性警务”AI系统来复制。认识到这一点的严重影响,各种权威组织最近建议,所有AI系统都应该接受无偏数据的培训。欧洲委员会于2019年初发布的道德准则提出了以下建议:“收集数据时,可能包含社会构造的偏见,不准确性,错误和错误。在使用任何给定数据集进行培训之前,必须解决这些问题。”
处理偏差数据
这一切听起来都足够明智。但不幸的是,有时根本不可能在训练之前确保某些数据集没有偏见。一个具体的例子应该澄清这一点。
所有最新的机器翻译系统(例如Google Translate)都经过句子对训练。英语-法语系统使用将英语句子(“她很高”)与等效的法语句子(“elle est grande”)相关联的数据。在给定的一组训练数据中,可能有5亿个这样的配对,因此总共有10亿个单独的句子。如果我们想防止结果系统产生诸如以下的性别歧视输出,则需要从此类数据集中消除所有与性别相关的偏见:
输入:妇女开始开会。他们有效地工作。
输出:莱斯FEMMES ONT开始留尼汪岛。它可以改善身体状况。
法语翻译是使用Google翻译于2019年10月11日生成的,但不正确:“Ils”是法语中的男性复数主语代词,尽管上下文清楚地表明正在提及女性,但它还是出现在此处。这是经典的例子,由于训练数据中的偏差,男性默认值被自动化系统首选。
通常,翻译数据集中有70%的性别代词是男性的,而30%是女性的。这是因为用于此目的的文本所指的是男性而不是女性。为了防止翻译系统复制这些现有的偏见,必须从数据中删除特定的句子对,以使英语和法语双方出现男性和女性代词的比例分别为50%/ 50%。这将防止系统为男性代词分配更高的概率。
当然,名词和形容词也需要保持50%/ 50%的平衡,因为它们可以用两种语言(“演员”,“女演员”,“中性”,“中性”)表示性别,等等。但是这种剧烈的下采样必将大大减少可用的训练数据,从而降低所产生翻译的质量。
即使结果数据子集完全平衡了性别,它仍然会以各种其他方式(例如种族或年龄)倾斜。实际上,要完全消除所有这些偏见是很困难的。如果一个人只花五秒钟来阅读训练数据中十亿个句子中的每一个,那么将需要159年的时间来全部检查它们-这是假设他们愿意整日工作,并且不休息午餐。
替代?
因此,在构建AI系统之前要求所有训练数据集都是无偏的是不现实的。这种高级要求通常假定“ AI”表示数学模型和算法方法的同质簇。
实际上,不同的AI任务需要非常不同类型的系统。淡化这种多样性的全部范围掩盖了(例如)严重偏斜的训练数据所带来的实际问题。这是令人遗憾的,因为这意味着对数据偏差问题的其他解决方案被忽略了。
例如,如果在较大的,不可避免的偏倚的数据集上对系统进行训练之后进行调整,则可以大大减少训练后的机器翻译系统中的偏见。可以使用更小,更不偏斜的数据集来完成此操作。因此,大多数数据可能会有很大的偏差,但是不需要对数据进行训练。不幸的是,那些负责为AI研究制定指南和法律框架的人很少讨论这些技术。
如果人工智能系统只是在加剧现有的社会失衡,那么它们就会阻碍而不是促进积极的社会变革。如果我们每天使用的AI技术的偏见远小于我们,那么它们可以帮助我们认识并应对自己的潜伏偏见。
当然这是我们应该努力的方向。因此,AI开发人员需要更加仔细地思考他们构建的系统的社会后果,而撰写AI的人员需要更详细地了解AI系统是如何设计和构建的。因为如果确实要接近技术田园诗或启示录,则前者将是可取的。
- 上一篇
更少的聊天量导致更多的机器学习工作
该团队正在使用对并行计算的深入分析来加速大规模机器学习。 通过解构和分析大规模并行计算中使用的久经考验的方法,由KAUST领导的协作开发了一个突破性的框架,可进行大规模有效的并行计算。该框架与机器学习中优化所需的处理类型特别相关。 “并行化”优化或数据处理任务使任务可以分布在许多计算节点之间。理想情况下,这会将计算所需的时间除以征募到该任务的节点数。然而,伴随并行化,需要在节点之间传递越来越多的信息,这意味着在实践中永远无法实现理想的加速程度。“在分布式优化中,常见的问
- 下一篇
谷歌和华硕合作创建信用卡大小的人工智能修补程序板
Google已与主要针对PC的ASUS合作,创建了他们所谓的“ Tinker Board”信用卡大小的单板AI电脑。华硕正式宣布了Tinker Edge T和Tinker Edge R这两个系统,它们都支持开箱即用的Android和Debian,但它们也应该能够运行Linux和其他操作系统(通过PC Watchh / tAnandtech)。两种系统都将在日本横滨举行的ET&IoT Technology 2019大会上展出。 至于系统本身,Tinker Edge T是基于带有Edg