互联网运维中出现的宕机事件不计其数,其原因可以分为三类:
“握手”是典型的误操作;
由“应用程序、系统和底层微代码中的错误”引起的软件瓶颈错误;

典型的不可抗力事件包括“光纤切断、停电和太阳黑子爆发”。
但这次微盟事件却完全不同。 这是首例人为恶意破坏、造成严重损失的事件。 互联网公司的老总们不得不喘口气了。 没有一家互联网公司可以处理这个事情。
2011年我从互联网运维转到银行运维后,一开始很不适应。 我感觉完全是两个系统,各种流程的制约导致效率很低。 但后来我逐渐明白了这些规则的含义,也见证了银行近年来对互联网的全面研究,从原来的稳态运维向双态运维的主动转变。
如今,银行正在积极拥抱互联网,学习互联网的大众运维方法。 那么互联网运维应该向银行运维学习什么呢?
1.首席执行官必须亲自关注“业务连续性”
互联网行业关于技术的俗语是“改变飞机发动机、改变高速公路轮胎”。 这体现了对技术支持下业务快速发展的自豪感。 然而,成功的背后却是一个又一个的停顿。 通过不断的尝试,只有通过失误和快速恢复,我才慢慢恢复过来。 这样的价格在业务初期还是可以得到支撑的。 在互联网已经成为基本服务的今天,价格却变得越来越难以承受。 疫情之下,互联网业务的中断不再是某一家企业的事情,而是成为影响国计民生的大事。
银行历来高度重视业务连续性管理,将业务连续性上升到社会责任的高度。 你可能不知道的是,银行关键系统故障超过2小时,必须报告银监会,超过4小时,必须报告国务院。 在这样的压力下,“两地三中心容灾系统”、“高冗余”、“紧急倒换”等业务连续性解决方案诞生了。 互联网公司的CEO需要将业务连续性视为业务增长。
2、CTO正确看待“稳定运维”与“敏感运维”的利弊
银行是稳定运维的代表,互联网是敏感运维的代表。 大家都知道稳态的优点是安全,但代价是缺乏敏捷性,但潜意识里却认为互联网运维的敏感态既敏捷又稳定,而且敏感态比稳态更先进。
但实际上,敏感运营就是要在效率和安全之间寻找平衡点。 这个平衡点往往与互联网的风险意识和投资有关。 大多数敏感运维都不会考虑一些极端情况。 另外,互联网运维经常宣扬一个人运维几十万台服务器,这也有一定的误导作用。 当场景和安全需求不同时,简单比较运维的人力效率是没有意义的。
3、数据中心负责人既要保证安全,又要防范风险。
互联网和银行数据中心的安全部门称为风险管理。 安全和风险的责任虽然相似,但含义不同。 互联网强调对安全事件的快速响应和快速处理。 更多情况下,安全就是防范外部风险。 银行的风险管理假设人们默认是不可靠的,防范内部风险与防范外部风险同样重要。 风险管理、安全应对、内部审计、外部审计,尽量实现岗位与人员之间的相互制约。 风险无处不在。 您的业务运行得越快,您面临的风险就越大。
4、不通过技术手段解决管理问题,承担必要的管理成本。
必须承认,微盟事件在技术上是无法预防的,最多只能减少损失。 互联网公司默认运维人员必须24/7待命。 VPN与笔记本电脑一样的办公标准,可以随时随地访问生产环境进行操作。
银行严格实行开发与运维分离、生产网络与办公网络分离。 Root 权限根据需要应用。 可以在特定的ECC机房使用专用终端进行操作。 变更操作需要双重审核。 开通VPN需要申请、说明原因、指定时间段等,这一系列措施一直是银行的默认规则,让很多银行运维人员难以理解为什么会出现这样的事件微盟出现了。 代码会有漏洞,人又不可靠。 虽然物理限制和过程控制会降低效率,但只有技术和管理并重,才能拥有双保险。
5、运维开发和运维团队必须分离,关注运维平台的非功能性需求。
互联网运维发展初期,运维人员兼职,自己制作工具。 他们追求效率和灵活性。 他们都觉得自己做的鞋子最适合自己的脚。 但问题在于,运维人员既充当运动员又充当裁判员,缺乏对风险防范、绩效等非功能性需求的考虑。 随着人数和规模的增加,潜在的风险也越来越高。
运维平台的本质是管理工具,需要扎实的管理策略和风险防范来约束人员行为、抵御黑天鹅事件。 组建独立的运维开发团队,同时面向管理员和管理者,兼顾效率和风险的需求,是互联网公司运维平台的发展方向。 毕竟,如果不稳定,再快也没有意义。
最后,结合十五年互联网和银行运维经验,我想说:稳态和敏感态,银行运维和互联网运维不是对立的,而是在不断融合。 银行从关键系统发展到海量系统,互联网系统从海量系统发展到关键系统。 最终,殊途同归,目标、理念、方法都是同样适用的。 银行对互联网持开放态度,互联网也应该主动学习银行,不要过度自信。 金庸先生《倚天屠龙记》里鸟与狮虎的比喻说得好:
张无忌学会了大宇宙移神术后,武功比他们高出许多。 但都说殷、宋的招数有破绽,但事实并非如此。 张无忌不知道他在想什么,但因为他拥有九阳神功,他想象中的招式绝对可以克敌制胜,但在实践中往往很难实现。 一般人是绝对做不到的,也不比殷宋之人高明多少。 就像一只鸟儿看到狮虎在地下打架,它不禁会想:“为什么不飞得高,猛扑一下,就能赢呢?” 不过,狮虎虽然是猛兽中最为凶猛、力量最为强大的,但是它对于高飞猛扑却是无力的。 张无忌的见识不够广博,想不出其中的原因。
文/云迹科技智金
主办/上海蓝梦兰宁,IT外包专家。