充分利用人工智能,实现更为高效的下一代数据存储
2019年04月17日 16:03 发布者:eechina
作者:Noam Mizrahi(Marvell CTO办公室,技术副总裁兼首席科学家) 如今,数据生成的速度远超人们的想象。在以前,人是数据产生的主要来源;而现在,图像设备、传感器、无人机、互联汽车、物联网设备及工业设备组件等,以多样的途径生成各类格式的数据。 然而,我们不应该将数据与信息混为一谈,对两个概念进行区分至关重要。
从价值角度衡量,目前仅有一小部分已收集数据可称作是真正的资产。以图像处理设备为例,一分钟时长的相关活动于此至关重要,而非长时间的无关紧要的视频片段。以此类推,如果将“数据”比作矿山,人人想要挖掘的金块就是“信息”。将该类数据转变成有价值信息的能力(所谓“挖掘”)称为“分析”。
图 1: 2009 年至 2020 年数据存储需求涨幅
图 1 所展示的图表由分析公司 Statista 绘制,显示了过去十年间数据存储容量呈现惊人的增长。据预测,截止 2020 年,存储需求将达到 42,000 EB以上。但是,绝大多数的数据存储(大多数估算显示占比至少为 80%)毫无结构化可言,在使用这类数据进行分析时,无疑会带来诸多困难。据估计,仅有 5% 的数据存储可以真正用于分析。如果有一种方式可以使用元数据在执行分析的环境中有效描述这类非结构化数据,则可以用来分析的数据量将显著增加,企业所拥有的数据可产生的价值将得到大幅提升。
人工智能 (AI)是对现代社会的各个领域带来重大影响的技术,这些领域包括电子商务、自然语言翻译、金融科技、安全、目标识别/检测乃至可快速确认危及生命癌细胞位置(或其他异常症状)的医学领域。尽管应用领域多样,但它们都有一个共同点:能通过采用一项可高效扫描大量非结构化数据(视频、文本、声音、图像等)并对其进行处理的技术,从而获取真正的价值。
具体而言,Marvell 不仅可以利用人工智能技术执行分析过程,还可以通过此技术前置处理非结构化的原始数据,以便为其提供标记的元数据,从而采用简单又准确的方式表示这类数据。通过上层分析软件可以分析此简化版数据库并从中收集有用的信息。在此之前,企业一直期盼通过人工智能技术从其存储的数据中发掘更多的价值,但却始终毫无头绪。
基于上述情况,Marvell 希望生成的元数据能够提升分析软件运行效率,并且将人工智能技术作为从大量非结构化数据库中创建元数据库的工具。现在只需要将大量数据导入人工智能计算机中进行处理即可。但是,这是否真的是正确的方法?
如果考虑到现在生成和存储数据的两种主要方式,即“云端” (‘the Cloud’) 和“边缘设备”(‘the Edge’),可以很快联想到移动这些大量数据将产生昂贵费用。有了新技术,这些可以得到有效解决。在云端传输大量数据,会对数据中心构建网络的基础设施带来压力,并会消耗大量电力及增加延迟水平,从而延长了整体处理时间。对于边缘设备而言,不同之处在于可用的计算机和电力资源有限。由于所在位置的小型设备的网络功能限制,因此无法将大量数据上传至云端。在这两种情况下,最大化操作效率的关键在于尽量减少移动数据量并使用元数据取而代之。
在来源处(例如存储设备中的数据存储位置)分配元数据会比四处转移数据更为高效。固态硬盘 (SSD)已经包含作为计算机实体所需的基本元素。这些设备通常只能用于与硬盘相关的操作,但也可以转换其用途,用于与功能相关的任务以及负责标记处理,或通过集成式硬件/软件/固件模块的辅助,实现上述功能。其中的一种操作模式为使用空闲的硬盘窗口执行后台映射任务,另外一种方式则为写入硬盘数据时同时对其进行处理。如果在存储位置部署这种加速方式并应用于正确的用例中,其益处不仅在于节约电量及费用,还可以尽量减少数据移动并大幅降低延迟,以及降低整体网络流量。此方式固有的可扩展性意味着企业和云服务提供商利用人工智能技术可扩展其业务范围。
去年八月在美国圣克拉拉举办的全球闪存峰会(Flash Memory Summit)上,Marvell 发表了极具开创性的 AI SSD概念验证控制器,展示了如何在不需要访问主机 CPU 处理资源的情况下,有效执行数据标记,同时避免上述提及的费用和延迟问题。Marvell 现场向参会者展示了 Marvell 数据中心及使用开源 NVIDIA 深度学习加速器 (NVDLA) 技术的客户端 SSD 控制器 IC 如何继承受过训练的人工智能模型,将其编译到集成式人工智能推断IP,以及在硬盘中扫描存储于本地的非结构化数据的大型数据库(例如视频库)。由此可生成标记并在搜索环境中创建可代表数据的元数据库。
如果将检测和识别物体或场景作为目标,人工智能推断引擎可扫描存储于硬盘的视频文件,并创建可列出其出现时间点的元数据。基于这项新型人工智能增强存储技术,可在固态硬盘中本地存储元数据库并可供分析软件使用。
当执法机构在时长无休止的视频文件中寻找可疑点时,他们可以加载受过训练的模型。该模型能够准确辨别上述可疑点并可在所有适用的视频内容中进行推断,此类推断可作为后台任务运行于所有存储视频内容的硬盘中。这种方式可以记录及标记上述可疑点的踪迹,更易于后续进行深入分析。
同样,此架构会使类似于后台聊天机器人 (ChatBot)的分析更为高效,此类分析涉及需要扫描聊天机器人通话的大型数据库以便改善服务质量。通过上述做法,可以判断用户在何时对其收到的回复感到满意/生气,或者通话时长是否合适等。创建可追踪这些判断标准的人工智能模型后,则可将这些标准编译到人工智能存储推断引擎内,并离线扫描通话。对于类似于电视点播(VOD)服务的个性化广告插入、人物/物体搜索及利用数据近似度的各种密集型输入/输出 (IO-intensive)用例,其也可带来明显的性能优势。
在无需昂贵的定制化 IC 的情况下,Marvell 首创的人工智能 SSD 控制器技术展示了如何执行新型数据存储架构以处理难以计算的“大数据”相关应用程序的扩数据阵列。通过向市场中已有的固态硬盘硬件提供更为智能化的附加逻辑的访问,可直接处理对下一代分析工作负载至关重要的元数据和标记,而无需连接专属处理资源。
遵循这种依赖传统集中式处理的替代策略,可使整个过程更为高效。只需占用最少的可用网络带宽,并且不会发生瓶颈问题。将人工智能加速器直接集成到具有成本效益的固态硬盘控制器 IC 中,可快速完成分析任务,不仅可以减少处理容量及降低相应的电费预算,还可以完全避免从头开发专属集成电路芯片(ASIC)的需求。 可编程架构的使用为更新所用人工智能模型带来诸多便利条件,以便在开发新用例时随时解决任何问题。