2020-12-11 09:22:54 阅读(159)
没有人喜欢谈论运营中断。如果你是一名公司员工,经历过这种经历会很可怕。一旦企业经营中断,首先是客户信任,其次是对企业未来收入的巨大影响。但它确实会发生。即使是许多上市的科技巨头,如ebay和微软,也可能拥有比任何初创公司更多的资源,但遗憾的是,这些大公司也遭受了经营中断。悲剧发生后,企业的所有业务都无法开展,他们的股东和高管团队也会非常懊恼,后悔没有及时做好准备。事实上,根据全球权威研究机构Aberdengroup的估计,企业因故障停摆的平均成本高达每小时16.1万美元。操作中断的根本原因包括:l臭名昭著的“乌龙指”(人为错误)l对复杂系统及其相关性了解不足,包括设备过期,或设备配置不正确,l被黑客攻击,或存在其他安全漏洞。l工艺设备不完善,或存在工艺缺失l也可能是上述原因的结合。运营中断的后果包括:L无法弥补的收入损失。例如,今年6月,Facebook爆发了半小时的运营中断,预计公司损失将达到50万美元。l严重的生产力损失,如Office365最近出现故障,导致客户陷入困境,无法使用电子邮件服务。l客户会感到愤怒,比如ebay最近断断续续出现了很多服务问题,这让很多依赖ebay服务的小企业感到非常恼火。l导致企业彻底失败,比如Codespaces公司之前被黑客DDOS攻击,给整个公司带来了毁灭性的严重后果。黑客的目的是勒索公司。他们获得了亚马逊EC2控制面板Codespaces公司的访问权,然后删除了公司的客户数据。可悲的是,这些数据无法恢复。运营中断是否会发生在你的公司似乎不是问题(因为肯定会发生)。现在的问题是,它会在神秘的时候发生。企业要想在竞争中生存,就必须更好地应对和处理经营中断问题,从其他公司的错误中吸取教训。没有人是完美的,即使有一次你完美地处理问题,你也不能保证每次都这样做。但我们希望通过讨论这些过去的人所犯的错误,从现在开始,帮助你避免在未来重蹈覆辙。在处理运营中断时,企业犯的十个错误最多:1、没有一个经过测试和可靠的操作中断响应计划,听起来很熟悉吗?发生了操作中断。客户支持团队不得不向技术运营团队发送大量电子邮件,及时报告故障情况,因为情况非常紧急。公司高管将要求下属每五分钟报告处理问题的进展情况。技术团队中的每个人都打开自己的监控工具,总是关注何时可以疏通数据,但通常他们只能看到问题的一部分。更大的混乱也会随之而来。团队开始互相指责,推卸责任。此时,系统管理员无法确定是否按照老板的要求解决问题,是继续处理问题,还是进行可行的修复。现在市场营销部门和法律部门也跳了进来,他们也要对外做出回应。“我们的社交媒体正在被垃圾填满,”营销部门会说。我们需要给用户发电子邮件,或者在官方博客上发帖,告诉你发生了什么!”;法律部门会说:“不要承认责任!“牛头不对马嘴,整个世界都要爆炸了!当然,世界不可能爆炸。但如果你对上述前半部分非常熟悉,那么你的公司就会犯错误,也就是说,没有经过测试和可靠的操作中断响应计划。那怎样才能避免这个问题呢?在处理操作中断问题时,必须确定“正确格式”流程。谁负责解决问题,谁负责升级系统,谁负责沟通问题;这些都需要落实到人身上。此外,还应进行事后分析,分析操作中断故障的原因,并解决各种漏洞。事后分析的范围可以更广,从建筑冗余到各种相关系统。此外,您还可以改变监控工具的设置,以便及时捕捉问题的原因并及时解决问题,并避免同样的操作中断故障在未来再次发生。2、当运营中断发生时,一旦运营中断发生与受影响客户的缺乏沟通,你就迫不及待地希望你的公司能回到正确的轨道上,但在这个最紧张的时候,最有可能在忙碌中犯错误。不幸的是,如果不及时与客户沟通,往往会导致一系列负面结果。比如客户投诉电话会像潮水一样涌入,等待时间会因为故障而变长,客户体验会变得一团糟。更可怕的是,操作中断很可能会给用户留下不好的印象,他们会觉得你的公司反应很慢,不值得信赖,不可靠。故障往往会导致公司内部面向客户的团队与您的技术运营团队之间的沟通出现问题,要么沟通不到位,要么沟通完全不畅。如果你没有一些系统可以发布通知客户,如博客、论坛、批量电子邮件、RSS订阅等,这将导致非常严重的问题。此外,当运营中断时,公司不愿意与客户沟通的原因实际上有一个错误的想法。他们认为客户可能不会注意到问题。事实上,客户肯定会注意到这一点;此外,他们会觉得损失会降到最低,但正是由于缺乏沟通,情况变得越来越糟。如何避免:无论是内部沟通还是外部沟通,你都应该确保在操作中断或故障后有一个明确的沟通过程,每个人都应该清楚地分配相应的职责。确保每个人都明白自己的责任。不要简单地把你的工作职责挂在公司的网站上,因为当操作中断故障真的发生时,它根本不起作用。3、为了回应使用中断故障,企业有时会将责任归咎于合作伙伴或供应商。但这样做很少取得好的效果,因为客户会认为你在逃避责任(谁选择供应商和合作后瓣?还不是你)。假如你不愿意承担责任,那么公司就不能从中吸取教训,既不能避免同样的问题再次发生,也不能让公众满意。如何避免:您需要承担更多的责任,并开始调查与故障相关的供应商,并设置冗余和审计过程,这有助于解决问题。解决问题的方法越多,就越不会逃避责任。确保事后监督不可责怪,并使用“五种为什么分析方法”来找出操作中断故障的根本原因。(“五个为什么分析”是一种提问的方法,用来探索造成特定问题的因果关系,类似于“遇到问题,多问为什么”)4、他们从一开始就不知道运营中断最糟糕的事情是你从客户那里听到运营中断(或者另一种可能性是从你的老板那里知道)。数据中心的监控基础设施也需要监控,这是一个很好的方法,因为有时当操作中断故障时,你根本无法得到提醒,其中一个原因是你的监控系统没有及时运行。甚至像亚马逊这样的大公司也遇到过这种情况。几年前,他们的外部操作中断了。幸运的是,他们使用logly云监控软件开发平台来解决相关问题。最好的方法:您需要一个基于“软件即服务”的统一平台,它可以向您发出报警,提醒您数据中心是否出现故障。您的监控平台还需要涵盖网站、应用程序、数据库、网络、服务器、虚拟机和云服务(无论您的IT基础设施部署在哪里)等各个方面(包括各种综合交易的审查和检查)。这样,你就可以领先一步,至少在客户发现问题之前主动发现问题并解决问题。5、对于操作中断故障,Dreamhost公司在其计费系统的客户体验中存在一些问题。公司自以为是,用幽默的语气解释,想回应这个问题。然而,他们的做法引起了一些客户的强烈不满。他们认为Dreamhost公司用“吉普森一家”卡通片回复,根本不把他们当回事。他们应该正式道歉,并做出合理的解释。因此,这些客户在网上和社交媒体上疯狂攻击Dreamhost公司。如何避免:如果操作中断影响您的客户,使他们无法正常处理业务,请务必认真对待。如果您的客户是一家公司,并选择您作为供应商,如果您有操作中断,没有合理的解释,您肯定会怀疑您的服务。6、没有处理好以上五个要素中的任何一个,就无法实现有效的操作中断沟通/道歉。“我很抱歉会有操作中断故障,但我真的帮不了你。的确,我知道我们没有给你提供任何有用的信息,向你解释为什么会出现故障,我们做了什么来解决这个故障。我们的解决方案没有为您提供故障恢复时间,我们暂时无法告知我们是否计划防止此类故障再次发生。这次操作中断故障给客户的赔偿不应该像你想要的那样,但我对给客户带来的不便感到最深刻、最真诚的遗憾。我知道你需要依靠我们,作为客户,我们也非常重视你,我们真的非常重视操作中断故障。永远不要说上面这段话。这个错误表明你的客户支持团队和技术运营团队之间没有良好的沟通,至少沟通不够直接和开放,或者你的道歉声明没有得到法律和财务部门的审查。如何避免:如果你想给外界一个正式的道歉声明,那么上述五个要素(即上述五个黑体标题)是非常重要的。如果你不能给客户一个有效的道歉声明,那么最终的成本是巨大的,除了收入损失,但也会导致大量的客户损失。7、灾难恢复最终成为“灾难”。事实上,企业在构建灾难恢复解决方案时也会犯很多错误。事实上,最常见的问题之一是,许多企业没有恢复灾难(DR)把它放在首位。其次,企业在构建灾难恢复解决方案时,没有考虑二级系统的负载,因为二级系统故障也会发生,也会影响主系统。绝大多数计算机负载不是线性的。如果有两个网站,每个网站都在40%负载的数据库上运行,这并不意味着一个网站可以处理80%的负载,负载率很可能达到120%。也就是说,企业在灾难恢复过程中,如果一个网站失败,两个网站都可能无法运行。如何避免:在您的系统中,进行容量测试,以便您能够了解网站的动态余量,以及网站在负载条件下的运行性能。另一种方法是,灾难恢复网站不需要激活所有功能,而是将其视为生产网站的理想替代品。除非你真的想再犯一个错误,否则在灾难恢复过程中可以避免配置错误..8、期待完美的Chelsey,而不需要实践练习。Sully“Sullenberger是一位传奇机长。他成功地在哈德森河上降落了一架美国航空的A320客机,挽救了数百人的生命。但在壮举之前,他已经有2万多小时的安全飞行时间,并完成了无数次模拟紧急情况的练习。每次危机发生时,他都能提前知道该怎么办。然而,许多公司无法做到这一点,他们的应急计划测试失败,或者测试结果不能满足专业要求。最后,当问题出现时,他们根本没有准备好。如何避免:需要大量的测试才能形成业务连续性计划。在测试过程中,你会发现哪里有问题,然后及时解决。毕竟,这比实际操作中断要好得多。9、研究表明,当人们面对一大群人时,他们很少在紧急情况下采取行动,或者在这种情况下,他们很少觉得自己也需要承担一定的责任。责任分散常被用来解释这一现象,困境中的个人很少得到帮助,尤其是当一大群人在现场时。本质上,群体中的个体会等待集体决策,如果别人不做决策,“我”也不会。企业在经营中断故障时,往往存在责任分散的问题。他们没有明确地把解决问题的责任分配给个人,团队会互相指责,最后没有人会对问题负责。如果你有太多的监控解决方案,或者升级路径不清楚,类似的情况就会发生。如何避免:在制定操作中断响应计划时,应明确分配每个人的职责,并包括各种系统升级的时间进度。公司内部的所有团队都必须使用相同的故障监控平台(如Logicmonitor),其目的是根据问题的类型定位正确的人。公司需要一个升级链来解决问题。如果一个人不能在预定的时间内解决问题,他需要自动将问题转移到下一个人身上。10.成为“处理急事的奴隶”,“我们越来越觉得进退两难,其实不是缺时间,而是优先安排有问题。”–CharlesE.Hummel,《TyrannyoftheUrgent》(CharlesE.Hummel的《缓急辨别》、这本关于时间管理的小书,原书名Tyranyoftheurgent,有人翻译成「急事的奴隶」
以上就是关于遇到运营中断应该如何处理?的相关介绍,更多遇到运营中断应该如何处理?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对遇到运营中断应该如何处理?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一