1. 运维工作基础组建、技术选型的等从0到1的组建。
2. 监控管理系统。
- 技术选型。使用开源open-falcon作为监控服务,对基础系统层、中间件服务层 、应用层、外网层等方向进行信息的收集、管理、分析、告警。
- 容器上线后,保留原有监控体系下,对容器使用Node_Exporter+cAdvisor+prometherus+Grafana新的监控架构模式,对容器和宿主机进行监控。
- 接入ARMS 应用监控。提供 JVM 监控功能。
3. 日志价值再创造。
- 日志的分析告警。采用EFK架构方式,对应用日志进行不同Sinks的使用,提供给不同部门做数据的分析、监控、告警等。
- 性能日志分析。商定日志规范,采用zipkin,进行分析处理。对服务性能低点进行提前预判。
4. 负责机房迁移,保证服务正常运行。
- 负责统筹从阿里云国内站迁至AWS,然后迁至阿里云国际站的工作。
5. CICD自动构建平台
选型Jenkins,根据公司具体情况,采用master-slave方式,进行发布构建。 满足各种构建需求
6. 数据可视化平台
7. 堡垒机系统平台
- 服务器管理;授权管理;会话管理;任务管理;在线运维;操作审计
8. 容器落地
- 借助阿里云平台的容器化服务,将公司后端所有服务,包括无状态和有状态的,全部迁移到kubernetes上,实现HPA。
9. 参与内部CMDB管理平台的设计、编写
- 主机操作、管理模块;监控数据抽取模块;VPN账号管理模块