华为公司近日宣布将利用自家 FusionStorage 产品与 Alluxio 开源软件实现大数据分析加速;此举相信能够为令人昏昏欲睡的缓慢数据分析流程带来一股新风。
Alluxio 此前曾名为 Tachyon Nexus,是一家由 Andreessen Horowitz 资助的初创企业。
FusionStorage 则属于华为公司旗下的分布式软件定义存储系统。其最新 FusionStorage 6.0 支持分布式块、文件与对象存储,同时可对数据进行分类、加密与重复数据删除。
Alluxio 公司的软件产品是一套以内存为中心的虚拟分布式存储系统。其功能相当于为 HDFS 节点集合等远程存储系统提供一套本地缓存。其基于本地节点集群运行,而各本地节点则供运行有大数据分析与查询任务的计算节点进行访问。
该软件提供:
配合自动数据放置的分层式存储机制(包括内存、闪存与磁盘)。
配合透明化命名机制的单一命名空间。
可集成原生 S3、谷歌 Cloud Storage、OpenStack Swift、阿里巴巴 OSS、微软 Azure Blob 等存储方案。
Fuse Connector,采用键-值接口。
一条命令即可完成集群部署。
具备指标报告功能。
Alluxio 支持多种不同底层(远程)存储系统,具体包括 HDFS、Gluster、S3、OpenStack、GCS、NFS、OrangeFS、IBm Spectrum Scake、Ceph、Isilon 等等。
百度公司在 Alluxio 的帮助下将 Spark 查询速度提升了 30 倍。原本需要 15 分钟才能完成的批量查询如今不到 30 秒即可搞定,而且一套 1000 用户 Alluxio 集群能够提供超过 50 TB 内存空间。
巴克莱银行亦在运行查询的计算节点与 Teradata 数据存储库之间采用 Alluxio 软件,从而将原本需要数小时的 Spark 任务加速至仅需要数秒。
听起来确实很有搞头。我们认为华为公司及其物联网/云战略确实能够与 Alluxio 实现良好配合。感兴趣的朋友亦可点击此处与此处分别查看 Alluxio 项目及其演示材料。
济宁IT新闻