算力展开态势:我国算力需求激增,“东数西算”工程优化布局,智能算力增加明显,推进数字化的经济展开,未来将继续加强算力建造,立异技能,完善方针规范,构建工业生态。
智算渠道现状与趋势:当时智算渠道存在必定限制,国家和地方政府活跃推进其建造,以满意多职业算力需求,完成节能降本,未来将要点构建高功能算力工业生态,提高普惠服务才能,推进工业数字化转型,一起专业化算力服务也将加快展开。
运维运营现状与应战:智算渠道运维运营面对许多应战,如人才缺少、流程和东西化缺乏、技能门槛高、使命排障难等,需完善相关系统,加强人才教育练习,保证渠道高效安稳运转,推进AI技能运用。
中心功用:包含AI运营(模型与财物运营)、渠道运营(用户与资源运营、运营办理)、渠道运维(事务连续性、安全防护、智算运维),旨在提高渠道功能与用户体会。
安排架构与准则系统:安排架构包含运营、保证、运用、财物和安全等组,准则系统包含资源、毛病、功能、用户、数据、模型、运用、文档、本钱、安全等办理,保证渠道安稳运转。
AI运营:触及模型和AI财物运营,包含模型微调、RAG、提示词工程、智能体渠道等,还包含数据集市、模型集市、镜像集市和试验集市等财物运营内容。
渠道运营:从用户运用需求动身,包含用户运营(办理、答疑、练习、知识库等)、资源运营(纳管、调度、池化、办理)和运营办理(流程规划、数据驱动运营、计量计费)。
渠道运维:保证集群安稳性,包含核算运维和调度(支撑多种调度器)、存储运维(选用高功能分布式存储,处理遍及的问题)、网络运维(保证大带宽、低推迟传输,重视网络架构各方面)、安全运维(保证渠道安全,处理毛病,进行绿色运维)。
点评系统及目标:由基础设施、AI运营、渠道运营和渠道运维才能点评模块构成,含60个三级目标,经过专家点评确认权重,依点评成果优化渠道运维运营才能。
AI运营:复旦大学经过举行大赛、敞开数据集和模型等展开AI for Science运营;阿里云供给多种模型和服务,支撑AI开发全流程。
渠道运营:复旦大学CFFF渠道由多个部分所组成,供给多种运营东西,进行资源全生命周期办理;骞云算力运营渠道供给多云办理等服务,提高算力归纳运用率。
渠道运维:某AI试验室在大规模并行练习阶段供给多种工程化才能,面对资源使用和存储规划问题,经过多种方法保证项目运转。
未来展望:智算渠道运维运营将向自动化、智能化展开,交融AIOps技能,完成高效办理;与CI/CD技能深层次地交融,加快模型研制布置;树立老练人才教育练习系统,优化人员结构,推进AI规模化运用。