运维分为哪几方面?
在软件产品的整个生命周期中运维工程师都需要适时地参与并发挥不同的作用,因此运维工程师的工作内容和方向非常多:
事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。在这方面主要工作内容有:
问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以及在系统出现异常的时候可以快速的发现问题和判断故障的影响。
问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。
问题跟踪:通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具。
变更管理:以可控的方式,尽可能高效的完成产品功能的迭代的变更工作。在这方面主要工作内容有:
配置管理:通过配置管理平台(自研、开源)管理服务涉及到的多个模块、多个版本的关系以及配置的准确性。
发布管理:通过构建自动化的平台确保每一次版本变更可以安全可控地发布到生产环境。
容量管理:在服务运行维护阶段,为了确保服务架构部署的合理性同时掌握服务整体的冗余,需要不断评估系统的承载能力,并不断优化之。在这方面主要工作内容有:
容量评估:通过技术手段模拟实际的用户请求,测试整个系统所能承担的最大吞吐;通过建立容量评估模型分析压力测试过程中的数据以评估整个服务的容量。
容量优化:基于容量评估数据,判断系统的瓶颈并提供容量优化的解决方案。比如通过调整系统参数、优化服务部署架构等方法来高效的提升系统容量。
架构优化:为了支持产品的不断迭代,需要不断的进行架构优化调整。以确保整个产品能够在功能不断丰富和复杂的条件下,同时保持高可用性。
我们常说的“运维”主要是指服务器运维、网络运维、互联网运维。运维岗位是偏于技术岗的,所以一般是和技术研发划分在一个大体系下。
运维的主要工作职责覆盖了产品上线、维护、升级、下线等,可以理解为运维岗贯穿了一个项目的生命周期,可见运维岗位的重要性。
可能很多人觉得,运维很简单,不就是发布一下代码,管理几台服务器嘛!其实不是的,运维体系不比开发体系小。运维涉及的方面众多,我总结了以下几个方面供大家参考:
1、硬件资产采购与管理
这个很好理解,就是要负责硬件的采购维护管理工作,做好IT资产清单登记即可。
2、服务器安全
在现实工作中,保障服务器安全也是个很大的挑战。涉及的系统不同,安全策略也不尽相同。只要服务器在公网上,就难免受到攻击。
3、服务器监控
主要监控服务器的健康状态、负载、流量调度等。
4、服务器性能优化
不是说服务器买来就解决问题了,运维工程师同时也要对服务器做性能优化,能找出性能瓶颈,尽可能提升服务器单机性能。
5、运维平台研发
这个可以说是高级运维才能接手的工作了,主要负责开发运维所涉及的管理平台,如:监控平台、调度平台、自动化平台、发布系统、服务管理系统等。
综上,运维所涉及的方面众多,大家如果有其它见解,欢迎在下方评论区留言交流 ~
标签: it运维方案