More +

海量数据与数据管理

undefined� 

华穗技术宅 

当前的主要差距不再是关于谁可以采集更多的数据;而是关于谁可以快速理解所采集的数据。” 

—— Matt Wood,首席数据科学家, 亚马逊公司 

过去,硬件的采样速率受到模数(A/D)转换速度的限制,在物理上限制了所能够采集到的数据的多少。但时至今日,硬件供应商已经加快了数据采集速率,使工程师和科学家迅速地突破了速率和分辨率的障碍,他们最终引发了新一轮的数据膨胀浪潮。简单地说,在采集应用中,硬件不再是限制因素;对所采集到的数据如何进行有效的管理才是未来的挑战。 

计算技术的进步——包括微处理速度的提高和硬盘储存容量的增加,以及硬件和软件成本的降低——极快地引发了数据的大爆炸。特别是在测量应用中,工程师和科学家们可以在一天中的每秒采集大量的数据。在欧洲核子研究中心(CERN)的大型强子对撞机运行的实验中,仪器每秒可以生成40 TB的数据。一架波音喷气发动机在工作过程中,系统每30分钟将会生成10TB的运行信息。对于跨越大西洋的单程飞行过程中,一个四引擎的大型喷气式客机可以生成640 TB的数据。算一算每天世界上有超过25,000次的航班,您就会理解了为什么会存在如此大量的数据。这就是“海量数据”的由来。 

技术研究公司IDC最近进行了一项针对数字数据的研究,其中包括世界范围内的测量文件、视频文件和音乐文件等。这项研究表明,可获取的数据量每两年就会翻一番。这个事实类似于电子领域最著名的定律:摩尔定律。如果数字数据的产生速度继续模仿摩尔定律,那么一个公司或组织能否取得成功的关键将在于它能否快速地将所采集的数据转变为有用的结论。 

海量数据的出现为数据分析、搜索、整合、报告以及系统维护带来了新的挑战,它们必须能够满足与数据的指数型增长速度保持同步。数据的来源很多。但是,其中工程师和科学家最感兴趣的是真实世界生成的模拟数据。它是从振动、射频信号、温度、压力、声音、图像、光、磁和电压等测量中收集而来。通常数据的特点由四个V组成——数量(volume)、种类(variety)、速度(velocity)和价值(value)。但另一个“V”——可视化(visibility),正逐渐成为一个关键的决定性特性。也就是说,全球企业一个日益增长的需求就是访问不同地区的商业、工程和科学数据。这就需要云等互联信息技术(IT)系统与数据采集系统(DAQ)紧密连接,这是目前数据采集领域所引起的革命性的理念突破。 

具体来说,工程师正在寻找如图所示的三级解决方案体系架构,以构建一个统一的集成解决方案,从而改善前端传感器的实时数据捕获和后端IT基础设施的数据分析。数据流开始于第一级的传感器,被第二级的系统节点捕获。这些节点执行初始的实时、动态和早期数据分析。被认为重要的信息通过软硬件“边缘”传输至传统IT设备。第3级的IT基础设施(服务器、存储和网络设备)负责管理、整理和深入分析早期数据或静态数据。最后,对数据进行存档以备后用。通过数据流的不同阶段,不断发展的海量数据分析领域正在为人们提供前有未有的有用信息。例如,NI公司与Duke Energy能源公司共同开发的InsightCM状态监控系统,将硬件监控转变为软件和网络级,实现了总共3万多个传感器,200多个节点,60个不同地域的智能电网监控。 

undefined� 

图: 三级解决方案架构 

可以预见,历史最久、速度最快、数据量最大的海量模拟数据正具有着日益重大的科学、工程和商业意义。为了挖掘这一巨大的资源,开发人员正在转向基于工具和平台的解决方案,这些工具和平台应能够相互集成,而且能够与其他合作伙伴提供的工具和平台相集成。由于这个三级大模拟数据解决方案可解决科研、产品测试以及机器状态和资产监测等关键应用领域的难题,其需求正在不断增长。