天云软件SkyForm AIP携手齐鲁工业大学 构建高性能数据分析平台

2021年07月07日 22:40    发布者:eechina
近年来,国家对于高新技术自主研发的重视已经上升到了国家战略层面,高校作为国家未来人才储备,科研成果最多的单位之一,国家对其投入也在逐年加大。教学设施的优化与科研配套设备对于高校教研工作者来说尤为重要。在众多科研设备中,高性能计算机和计算中心已经越来越多的作为“基建”设施被各大高校争先引入。


齐鲁工业大学作为山东省重点建设的应用研究型大学、山东省综合性自然科学研究机构以及山东省属高校高水平大学,紧随国家科技兴国的发展战略,提前布局高性能计算基础设施,为教学、科研、行业应用等多种应用场景提供完善的融合服务平台。尤其是在人工智能方向,校方迫切需要搭建自己的高性能数据分析集群,帮助在校老师及学生完成在人工智能领域的开发、模型训练教学以及科研任务。

人工智能领域的探索需要强大的算力支撑,高性能数据分析集群是不可或缺的基础设施。它不仅需要良好的硬件支撑和友好的应用软件,更需要能把性能发挥到最大化的中台系统——“集群资源管理和调度软件”。所谓集群资源管理和调度软件就是协调底层硬件资源与应用层软件的中枢系统,好比一个繁忙十字路口的红绿灯,它可缓解拥堵的道路交通,并最大化提升道路运输能力,这就是高性能计算中资源管理和调度软件的作用。没有它的管理,会造成用户的任务大量冲突, IT资源大量浪费,导致科研项目进度大大降低。常规的开源软件如基于容器技术的Kubernetes使用和维护门槛较高,需要使用者熟悉容器的制作和使用,运行和维护也缺乏代码开发者的直接支持。

天云软件与合作伙伴一起积极听取校方的需求与意见,从校方的使用场景出发,根据多年的服务经验和高性能计算、高性能数据分析管理调度软件的技术积累,基于天云自主的高性能计算管理和调度系统SkyForm AIP设计出了一套适合于高校的高性能数据分析平台。重点提升对GPU资源的调度、使用和监控,实现完全云模式的操作流程,让老师和学生们可以像在本地一样远程可视化使用应用。调度软件不仅有效为模型训练任务分配GPU,还可监控GPU实际的使用情况,对已分配GPU后不使用以及随意使用未经调度分配的GPU的任务,将会根据规则自动处理,这样极大的提高了GPU和集群其他资源的利用率,让老师和同学们把精力集中在人工智能的科研和教学上,而不需要花费大量精力去学习和处理容器、操作系统命令等复杂的IT问题。



​当然项目也并非进行的一帆风顺。在最初的高性能数据分析集群部署完成后,同学们争先恐后的登录平台,想在平台上尽快建立自己的研究项目,但这也引发了一个问题——稀缺的GPU资源长时间被某些用户长时间占用,导致其他人无法使用。天云软件的技术团队迅速作出反应,对软件产品进行了改进。首先对用户任务类型分类,通过限制登录时间和资源分配,有效释放平台紧俏资源;其次为防止资源分配冲突,对系统监控功能进行了重点升级,使得调度系统在监控下对资源分配得当,效率倍增;最后为了进一步提高整体系统安全性,天云软件技术团队对图形应用内网端口动态端口做了统一映射到一个固定端口,用户通过网关访问系统,直接打开浏览器输入登录,安全便捷。齐鲁工业大学计算机科学与技术学院姜文峰老师说:“平台最开始确实有些使用问题,经过一段时间的磨合后,天云软件逐步完善切实可行的升级方案,并为我们定制化开发了多项配套实用功能,他们不仅能够快速响应,还专门建立了技术运维社群,7*24全天候在线处理突发问题,这样的服务令我们非常满意,目前碰到的问题都已妥善的解决,这个平台对于我们学校的科研教学工作起到了很大的帮助。”

天云软件与合作伙伴通力合作克服了项目实施中的诸多难点,为齐鲁工业大学搭建了一个模块化、便捷、可靠且可扩展的高新能数据分析平台。经过近两年的使用和与运维团队的紧密配合,系统运行稳定,资源效率实使用大幅提高,为校方教学、科研项目提供了良好的技术支撑,得到了老师同学们的一致好评。