运维的故事,故障处理系列(六)

如何将知识孤岛进行整合
老姜所在的公司有很多个服务团队,老姜算其中一个比较知名的团队,当然在别的地区,也有着一些团队。两三年之前,团队和团队之间的沟通和交流非常少,往往这个团队遇到了一个新bug,费了九牛二虎之力然后解决了,而另外一个团队也遇到了这个问题,然后又要去花时间去找资料,去开sr,找原厂等等。这大大的导致整个公司整体的利益受损,效率变得低下,因为你花了更多的时间去处理相同的问题。为了能够将知识进行关联,能够更好的协作,更好的把知识传播,老姜想了几个办法就是:”
1.Bug预警,一旦有新的问题产生并被定义为bug,老姜就要求工程师把这个问题写成一个预警文档,然后转发给各个团队的team leader。
2.创办内部杂志刊物,老姜给公司建议,创办了一个内部杂志刊物,一个季度把本团队比较好的优秀的学习作品做成杂志,然后转发给公司的其他各个团队进行翻阅。
3.一个月开一期专家会议,把比较好的案例拿出来进行分享。这样可以促进专家团学习和进步。以前这个事情还无法实施,现在有YY语音这种比较方便的软件。
当然这里有一个问题也困扰着老姜,因为很多客户要求不要把信息泄露出去,所以老姜一般都会安排一个专门的人对这类文档进行审核,必须做模糊化的处理之后才能传阅。否则一律不准发布。
建立一个属于自己的文库
每一次出完故障,老姜就会要求下面的人员把故障整理成两种类型的文档,一种是故障处理类的文档,这类文档里面侧重于我是如何处理的?我是如何解决的?而另一种文档是老姜要求的文库类的文档。这类文库类的文档主要侧重点是“这个是什么?为什么会这样?“举个很简单的例子,对于SCN天花板的问题,老姜就曾经要求过一线的小李写一个文库类的文档:“SCN是什么?SCN有哪些?SCN天花板是什么?“通过写这类型的文档可以迅速提高一个工程师的基础知识。每当有新人来之后,老姜也会让新人去文库里面看文档。迅速提高自己的能力。其实老姜这种做法类似于把理论和实践进行剥离,当新人进来之后,当然是先让他学习理论迅速得到提高,而在工作的过程中的实践是需要循序渐进的。
这里给大家说一个案例,前一段时间小李遇到一个难题,一套非核心库的LMS进程总是莫名奇妙的就Crash了,导致数据库也会突然之间就Crash,小李通过开SR得知这可能是一个Bug,但小李就思考了老姜提出的那个问题:”为什么以前没有这个Bug?“于是小李就想解开这个谜底,于是他就想查LMS进行主要做什么?主要和那些进程交互?就上文库上查资料,哈哈,你们猜怎么着,小李还真找到了。小李找到了一篇对LMS进程很详细介绍的文档。里面有一副图是Riyaj Shamsudeen大师的图,小李通过这幅图对LMS进程的工作原理有了更深入的了解。


 

就这样小李很快就如鱼得水,在文库中找到了各种各样的资料,大大的加深了他处理各种问题的能力。

分享到: 更多

Trackbacks & Pingbacks 1

  1. From 运维的故事,故障处理系列(终结) | Buddy Yuan的个人技术博客 on 23 5月 2020 at 07:12

    […] 运维的故事,故障处理系列(一) 运维的故事,故障处理系列(二) 运维的故事,故障处理系列(三) 运维的故事,故障处理系列(四) 运维的故事,故障处理系列(五) 运维的故事,故障处理系列(六) […]

Post a Comment

Your email is never published nor shared. Required fields are marked *