Anshumali Shrivastava使用AI来摧毁数据
每天在线发布超过10亿张照片。在一秒钟内,大型强子对撞机可以产生100万千兆的观测值。大数据的膨胀速度比目前的计算机程序可以分析的速度快。
休斯顿莱斯大学的电气和计算机工程师理查德·巴拉尼克说:“我们拥有庞大的数据海洋
大数据增长速度超过当前计算机程序可以跟上的速度,GET SMART 计算机科学家Anshumali Shrivastava正在设计巧妙的方法来帮助计算机程序更智能地工作,而不是更难。世界充斥着数据,而Anshumali Shrivastava可能会让我们免于溺水。
每天在线发布超过10亿张照片。在一秒钟内,大型强子对撞机可以产生100万千兆的观测值。大数据的膨胀速度比目前的计算机程序可以分析的速度快。
休斯顿莱斯大学的电气和计算机工程师理查德·巴拉尼克说:“我们拥有庞大的数据海洋,我们必须通过花园水管将其吸走。”
因此,33岁的计算机科学家Anshumali Shrivastava正在设计新一代的人工智能程序,以有效地处理洪水信息。
麻省理工学院的电气工程师和计算机科学家Piotr Indyk表示,“他非常有创造力”的策略可以解决笨重的数据集问题。“我说其中一些事情,'我希望我想出来。'它们清晰,美观,而且有效。“
Shrivastava进入了人工智能,因为解决现实世界问题的数字运算算法是“你看到数学在行动中的地方”,他说。但作为博士Shrivastava是康奈尔大学计算机科学专业的学生,他意识到人工神经网络是如此低效,如今的人工神经网络。
神经网络由称为人工神经元的代码片段组成。为了学习诸如图像识别之类的任务,AI网络可以研究标记图像,网络中的每个人工神经元都获得识别某些模式的专业知识。
但即使他们专注,所以典型网络中的所有神经元都会继续研究所有传入的信息。例如,当网络看到猫照片时,甚至负责注意卡车的神经元也会引起注意。Shrivastava说,这不必要地耗费时间和精力。
在研究生院,Shrivastava找到了一种识别和激活与每个输入最相关的神经元的方法。他使用散列函数,在数据库中组织记录的计算工具,就像Dewey Decimal System在图书馆中组织书籍一样。
有序存储
计算机可以通过将每个文档馈送到散列函数来组织数据库中的记录,散列函数为记录分配散列码。类似的文档被分配了类似的哈希码并存储在哈希表中的相同“桶”中 - 类似于同一主题的书籍在库中被搁置在一起的方式。
T. TIBBITTS
Shrivastava根据它们与给定输入的相关性,设计了一组哈希函数来组织和快速定位网络中的虚拟神经元- 因此您可以找到所有猫神经元并忽略卡车神经元。
“我在考虑这个问题超过两年,”他说。“你把所有的难题都放在脑后。”当他有一段时间并且通常无处可去时,他会回到这个问题。但是回到他身边的那一天,他在几个小时内解决了这个问题。他回忆起坐在他的卧室里,阅读并重新阅读他的解决方案,以说服自己它实际上会起作用。
他提出的系统可能被认为是“当年机器学习的最佳研究工作,”赖斯的计算机科学家Moshe Vardi说。它在2014年神经信息处理系统会议上获得了杰出论文奖。
从那以后,Shrivastava建立了一个图像分类神经网络,其工作方式与标准网络一样,但计算量减少了95%。这样的效率可以释放人工智能程序处理其他信息的时间和精力,例如,用于语音识别的音频,为更多样化的人工智能铺平道路。
自从2015年加入莱斯大学以来,他还开发了其他简化计算的方法。他“非常聪明,速度极快”,瓦尔迪说。“我们有时不得不追随他,因为他的思想正在向前发展。”
Rice和杜克大学的Shrivastava及其同事最近对叙利亚内战受害者数据库进行了散列处理。为叙利亚冲突获得准确的死亡罪数,以帮助起诉犯有危害人类罪的者已证明是困难的。家庭成员,媒体和其他来源报告的受害者数据库包含重复记录;计算机需要花费一周多的时间才能将所有354,000条记录相互比较才能找到重复记录。
一旦Shrivastava的计算机程序为四个受害者数据库中的每个记录分配了哈希码,它就会在几分钟内使用这些代码来识别可能的重复记录。该计划于6月份在“应用统计年鉴”中报告,然后仅检查了这些记录的匹配情况。
更接近家庭,Shrivastava及其同事创建了一个智能手机应用程序,用于根据人的周围环境照片导航购物中心或其他大型建筑物。该应用程序将用户拍摄的照片反映为哈希码,以与参考照片代码进行比较,在两秒钟内精确定位位置。
随着大数据的泛滥,Shrivastava很容易被淹没和沮丧。幸运的是,“他体内没有闷闷不乐的骨头,”巴拉尼克说。
Shrivastava可能会在特定问题上停顿数月或数年,然后才能获得导致他基于哈希的尤里卡时刻的大脑爆炸。但他表示,当他能够将缓慢移动的计算机系统推向高速档时,“这是值得的。”
- 上一篇
一项新的人工智能培训计划可以帮助机器人摆脱他们的无知
一项新的培训计划可以提醒人工智能计划,他们并不知道所有人。运行机器人,自动驾驶汽车和其他自动机器的人工智能程序通常在模拟环境中进行实际首次亮相之前(SN:12/8/18,第14页)。但是人工智能在虚拟现实中没有遇到的情况可能会成为现实决策中的盲点。例如,在没有紧急车辆的虚拟城市景观中训练的交付机器人可能不知道如果它听到警报器,它应该在进入人行横道之前暂停。麻省理工学院的计算机科学家Ramya Ramakrishnan及其同事开发了一个模拟后培训计划,其中人类示范者帮助人工智能识别其教育中的差距,从而创造出
- 下一篇
人工智能众包数据以加速药物发现
药物数据 新的计算系统允许制药公司汇集数据来训练AI程序以发现新的药物 - 而无需与竞争对手共享机密信息。 新的加密系统可以让制药公司和学术实验室共同合作,更快地开发新的药物 - 而不会向竞争对手透露任何机密数据。该计算系统的核心是一种称为神经网络的人工智能程序。AI研究哪些药物与人体内的各种蛋白质相互作用以预测新的药物 - 蛋白质相互作用的信息。 更多的培训数据产生了更聪明的人工智能,这在过去是一个挑战,因为药物开发人员通常不会因知识产权问题而共享数据。研究人员在10月19日的“科学&r