一方面,人工智能技术被用于将复杂的数据分析过程自动化,快速识别数据中的模式和趋势;
另一方面,数据平台为上层模型提供更强的算力及更高质量的数据,推动模型开发范式向以数据为中心的模式转变。当前,Databricks、Snowflake、阿里云、华为云等国内外大数据厂商均推出具备数据存储、计算、开发能力的 Data+AI 解决方案。
随着大模型技术的进一步普及,对数据智能平台的异构资源调度、向量化计算及智能运维能力提出了更高要求:

一是异构计算资源高效纳管能力有待提升。模型训练需要大量CPU、GPU 等异构计算资源的支撑,如何在同一集群中高效纳管异构计算节点,对算力资源进行自动化部署、监控、调度和优化等操作,满足不同规模企业的模型训练需求成为重要问题。
二是数据平台向量化计算能力有待增强。向量化计算是将传统的基于循环的矩阵运算转化为基于整体矩阵操作的计算方式,能够显著提高模型训练计算性能,但当前计算框架对向量化计算支持有限,亟需开发新的编程模型和架构以集成更高性能的向量化计算能力。
三是运维能力的智能化程度有待加深。数据智能平台对海量异构数据的计算加速也带来了巨大的运维压力,当前运维体系的故障自动诊断准确性和时效性有待提高,亟需智能化技术在运维领域深度应用。
未来,数据智能平台发展主要有以下三大趋势:
一是利用云化、智能化、多集群等技术实现平台算力与成本的平衡。
一方面,通过智能化技术,实现任务的自动调度和资源的智能分配,提高资源利用率和系统性能;
另一方面,随着多云和多地部署趋势的增加,分布式调度系统将更加关注跨集群的任务和资源管理,实现集群间资源协作和任务调度。
二是模型训练推理需求推动向量化计算技术进一步集成发展。向量化计算是提升模型训练、推理性能的重要手段,未来数据智能平台将通过新的编程模型和架构,提升自身的向量化计算性能。当前,云服务商也正在提供更多集成的向量计算产品和服务,以吸引对高性能计算有需求的企业客户。
三是利用人工智能技术增强数据智能平台运维能力。随着大模型与运维技术相结合,数据智能平台可以通过实时数据分析,及时发现异常,触发故障自动诊断机制并自动给出解决建议,减少人工干预、诊断时间及故障解决时间,降低故障对系统应用的影响。同时能够构建预测系统性能、效率模型,自动调整引擎参数和任务参数,达到系统性能和效率的最大化。