分布式文件存储方案 7月29日到31日,首届中国算力大会在山东济南拉开帷幕。同时,中国算力大会面向全社会征集了在新基建领域具有突出创新性、颠覆性和引领性的“创新先锋”优秀案例,其中由国家超级计算济南中心和华为共同打造的“数据存储集群系统”脱颖而出,因其创新性好、示范性强、完整度高而入选其中。 这一方案一大特点是围绕济南作为山东省内超算核心、未来全国超算中心互联点,对数据存储的方式做了创新。该方案通过构建数据存储集群系统,实现了山东省内多个数据中心存储资源的一体化,使多个数据中心之间的互联和全局数据的共享流动更加高效、节能、安全。 计算、存储、网络是数据中心的三大要素,此次算力大会发布了《中国算力白皮书》《中国存力白皮书》和《中国运力白皮书》,中国信通院云大所副总工程师郭亮对《中国存力白皮书》进行了解读。郭亮认为:数据存力是算力价值的前提和基础,只有数据“存得好、算得快、传得稳”,算力基础设施才能充分发挥数据要素的价值。这体现出在当前高度重视算力的同时,已经认识到数据存力的重要性,数据存储是算力价值发挥的前提和基础,在挖掘算力价值之前,要首先构建相适应的“数据存力”。 济南超算难题,存储首当其冲 国家超级计算正是数据存力在基础设施建设的最佳落地实践。国家超级计算济南中心(以下简称济南超算)由科技部批准成立,创建于2011年10月,是从事高性能计算和智能信息处理技术研究并提供计算服务的综合性研究中心。 济南中心是我国首台完全采用自主处理器研制千万亿次超级计算机“神威·蓝光”的诞生地,算力平台分别位于齐鲁软件园和国家超级计算济南中心科技园。目前济南中心有超算科技园、神威蓝光超级计算机、神威E级原型机、山河超级计算平台、以及还在构建中的下一代超级计算机。 大科学与大数据相伴,超算的数据量也越来越大。1颗遥感卫星每天的数据量是50TB,每年数据量达到18PB;1个高能同步辐射光源中心或者一个FAST天眼,一天的数据量则是500TB,一年达到180PB。自动驾驶汽车、类脑研究也都是这样巨量的数据,SKA平方公里阵列射电望远镜的数据量再次爆发,每秒的数据量就是1 Pb。 “济南超算在应对异构算力和多样化应用中主要的工作是在存储方面。目前济南超算平台总存储量是245PB,覆盖了文件、对象和大数据存储。我们要把数据搬迁到超算里做计算,数据迁移中的安全要保证。” 国家超级计算济南中心总工程师王继彬说,“我们的超算中有科学计算集群、数据计算,还有国产的、神威的计算集群,不同计算集群构建了不同的存储集群。在用户把数据搬到计算机群的过程中,搬迁过程是非常头疼的。今年上半年,我们接收到了某项目快递过来的几百块硬盘,数据接收和导入花费了很多时间和资源。这种方式导致超算在目前的存储架构上没有办法应对大数据量的搬迁。” 因此,济南超算和华为携手要解决的是三大挑战:一是数据孤岛的挑战,海量数据进不来、出不去,数据流入/流出难:硬盘快递+专线传输耗时长,且存在安全风险,不同应用资源池,数据互通难。二是混合负载,高带宽与高性能业务并存,海量小IO要求高性能,超大文件要求大带宽。三是智能管理难,在数据全生命周期安全管理中,系统运行性能低于预期,故障定位难,数据交换要防泄漏。 统一数据底座,逐一化解挑战 华为提出的解决之道是构建分布式存储的统一数据底座。这个存储的底座围绕数据打造,分类为文件存储、对象存储、HDFS(Hadoop分布式文件系统)存储,多种算力可以按需加持——超算中心需要HPC(高性能计算)算力,人工智能计算中心需要AI算力,大数据中心需要大数据算力,云计算中心需要云通用算力。
|