01
SLA 作为服务提供商与客户之间的“合同”,明确规定了 IT 服务提供者和客户之间对服务水平的期望。这个IT服务提供商,通常分为内部提供商与外部提供商。内部提供商即企业内部的 IT 部门(或者 IT 运维团队);外部提供商则牵涉到 IT 服务的外部采购。
为什么 SLA 这么重要?主要有下面这几点:

02
SLA 包含两个要素,一个是 SLI,一个是 SLO。
SLI(服务测量指标,service-level index):这是经过仔细定义的测量指标,根据系统特点决定测什么,确定的过程很复杂。既要保证指标能准确体现服务质量,还得可靠。
SLO(服务等级目标,service-level objective):就是说服务该有的功能得达到什么样子,像每分钟平均 qps> 100k/s;99%访问延迟< 500ms;99%每分钟带宽> 200MB/s。
按面向的人群来分,SLA有两个维度:业务侧维度、服务侧维度。
业务侧维度:客户对这部分指标感受最深,跟用户体验好坏直接相关。比如说响应时间、错误率。有数据表明,响应时间超过 1 秒,80%的用户就跑了;错误率要是高了,功能不对,客户没法完成想做的操作,也得跑。这部分指标直接影响用户体验。服务侧维度:说的是服务端的指标,主要给开发和测试人员看的,出问题时能快速定位。像ECS/RDS 这些的系统指标,比如 CPU、LOAD 啥的。
03
因为SLA是一种服务承诺,所以指标可以多种多样。
下面小艾老师给你介绍最常见的四个SLA指标:可用性、准确性、系统容量和延迟。
可用性:就是系统服务能正常工作的时间比例。像网站接口,调用 1000 次成功 980 次,成功率 98%,说明可用性不错。准确性:在系统服务里,看数据会不会不准或丢失。比如电商订单价格错了,就是准确性有问题。处理 1000 条数据错 20 条,error率 2%,准确性就不太好。系统容量:处理数据时,指系统能承受的预计负载量。比如在线游戏能支持 10 万玩家同时在线。系统每秒能处理 5000 个请求,来 8000 个就卡顿,说明负载超容量了。延迟:从系统收到请求到响应的时间间隔。比如打开网页用 2 秒,这 2 秒就是延迟。100 次请求 99 次 1 秒内响应,tp99 就是 1 秒,说明大部分时候延迟还行。
部分SLA还会涉及到的服务响应速度方面的指标,比如:
04
在 ITIL 4 框架中,SLA管理和 KPI 指标监控具有关键作用。明确SLA对服务级别的要求是基础,定义度量指标和 KPI 则能更好地了解服务的实际表现,为IT服务的改进提供机会。
好了,关于SLA管理就说这么多,这些也只是基础内容,小艾老师建议大家参加ITIL4 IT管理(基础)认证培训,学习更多IT服务管理方面的知识和技能。
最后给大家附上关于ITIL4基础级的一些信息,小艾老师已帮大家整理成表格和图片,需要高清图片可以私聊小艾老师获取~~
左右滑动查看更多