Abloomy IT运维管理系统在企业用户的应用

随着企业网络规模和IT设备数量迅速地扩大,以及企业经营对IT设施的依赖性的增加,负责保证IT设施稳定运行的运维队伍越来越大,运维人员的组成也越来越复杂,如果不能有效地管理和约束运维人员的操作行为,企业的网络安全和数据安全将面临非常大的风险。

现状

在现实环境中,企业面临的信息安全以及日常工作挑战如下:

1、多个运维人员使用同一个管理账号,一旦发生安全运维事故,很难定位账号的实际使用者;
2、多人同时拥有超级管理员的权限,对于运维管理权限的范围很难进行有效控制,存在较大的安全隐患;
3、管理设备数量庞大,管理员为了方便记忆和操作,很多设备会共用一个密码以方便操作,很容易造成密码泄露,并造成多个设备同时被攻击;
4、如果在不同设备上使用不同密码,日常工作中在多个设备或系统间的切换会给管理员添加很多麻烦,降低工作效率;
5、目前在大部分总分连锁企业或跨地域企业,IT资产管理和运维管理基本处于分支机构各自为政的孤岛状态,这给运维管理团队带来很大的不便利,无法有效地保护企业整体的网络安全和数据安全;
6、为了规避企业因IT设施故障带来的运营风险,在日常运维管理工作中,运维团队需要能够实时了解IT设施的运行状态,防患于未然;
7、能够在第一时间通过团队协作和知识共享快速地解决问题,最大程度减少企业的损失。
传统堡垒机局限于传统的4A功能:账号管理 (Account),认证 (Authentication),授权 (Authorazation)和审计 (Audit),聚焦于IT运维的安全管理, 已经无法满足现代IT运维管理工作的核心要求 -- IT设施运行可靠性。Abloomy 针对现代IT运维管理需求在传统堡垒机的基础上推出了超功能集合的服务应用,涵盖了零信任远程访问、IT资产管理,系统运行的监控和告警、事故管理、任务管理、人员管理、团队协作、知识共享和实验环境等,全方位满足企业及运维工程师各种需求。

传统堡垒机需求

账号统一管理:通过密码箱对于所有资产设备账号进行集中管理,并且可以对设备进行特殊角色设置如:只读管理员、审计管理员、终端用户以及超级管理员等;

身份认证:提供多因子的身份认证,支持LDAP协议为用户提供统一的认证接口,有效提高了认证环节的安全性和可靠性;

资源授权:设备提供基于用户,设备,行为等元素实现细粒度的操作授权,最大限度保护用户资源的安全;

访问控制:设备支持对不同用户组进行不同策略的制定,细粒度的访问控制能够最大限度的保护用户资源的安全,严防非法、越权访问事件的发生;

操作审计:设备能够对字符串、文件传输等全程操作行为审计;通过设备录像方式实时监控运维人员对操作系统、安全设备、网络设备、数据库等进行的各种操作,对违规行为进行事中控制,发生高危操作时可进行实时阻断。对终端指令信息能够进行精确搜索,进行录像精确定位。

IT资产管理

资产导入:通过自动扫描发现IP设备资产,支持资产的录入和导出,可关联资产与事件之间的联系;

资产管理:支持自定义标签,标注资产分类,可视化资产树方便资产的快速查询和管理,提供设备类型,IP,MAC,版本,物理位置,所属部门,使用人,以及设备图片等资产管理详情;

拓扑管理:支持拓扑呈现,可根据设备IP,Mac主机名等关联交换机对应端口,准确呈现主机在逻辑拓扑中的具体位置;

事件管理:通过工单管理流程将故障设备和运维人员进行关联,并动态跟踪事件的变化状态,完成设备故障处理。

系统运行的监控和告警

网络监控:可实现对于服务器,网络设备和业务应用系统的故障检测和性能管理,检测基础性能包含cpu,内存,磁盘空间,流量等,可在仪表盘中直观的查看历史和实时的监控数据;

实时告警:提供故障日志,并以邮件或短信的实现实时报警。

事故管理

事故处理:设备发生故障时,“服务盒子”能够自动采集故障日志填充到IT运维管平台的工单描述中,根据事先配置好的设备对应发送到工程师的邮箱或者手机中,工程师可根据告警提示的链接,直接进入到设备管理窗口中,进行故障排查,方便快速的完成故障处理;

事故过程管理:IT超级管理员可看到每个工程师对应的故障处理进度,也可进入到环境中协助工程师进行问题处理。

任务管理

事件任务管理:支持将与IT运维相关的支持人员、设备、拓扑等“自动”纳入管理流程,出现问题时自动将告警消息通过工单发送给支持人员,进行快速处理;

过程管理:通过“运维事件”来驱动工单流程管理,不仅记录事件的整个状态同时也会记录整个操作过程,包括“会议室”“白板”“实验室”“操作记录”,为事后的工作考核增加事实依据。

人员管理

人员认证:支持多因子认证,缓解恶意内部人“借用”同事密码或员工离职后造成的安全威胁;支持对接 LDAP,方便导入内部用户账号,便于管理;

角色管理:支持定义超级管理员,审计管理员,远程办公用户等角色,人员的管理实现了服务过程中的身份认证、过程授权、精细化的权限控制的结合,避免了传统人员管理“人-事脱节”。

团队协作

线上线下协作:打造线上高级工程师与线下初级工程师协同办公空间,优化线下IT服务客户和线上高级工程师资源匹配,降低IT运维的人力成本;

线上多人协作:支持在线上打造“故障现场”可以多人在线上协同管理和运维同一设备,出现问题时,支持多人协同会诊,会诊过程中内部人员可以邀请外部专家和厂商人员参与线上支持。

知识共享

知识库采集:知识内容来源分为两部分,一部分自于历史在平台上发生过类似故障的解决过程,另一部分是在国内的CSDN和国外的Stack Overflow等知识网站中智能检索给出推荐答案

知识库搜索:设备发生故障时,系统将自动采集到的故障日志填充到工单描述中,在会议室中,智能知识库会自动搜索并给出推荐答案,这些答案来根据知识库的提供的信息,方便工程师进行快速的问题定位并解决


知识积累:运维事件完成排查后,系统会自动学习解析,并更新到知识库中,循环往复,为企业提供知识存储和积累。

实验环境

Devops环境:平台提供用于构建IT Devops环境的基本工具,帮助构建在线运维,监控和方案论证等线上环境;

实验工具:Devops提供的环境包含真实设备和虚拟设备,其中“测试”是云端提供的微服务包含“FTP”,”Web”,”Zabbix”等调试工具,另外真机设备为用户提供需要运维管理的企业主机设备,通过虚拟编排的技术将真机设备和虚拟设备进行连接,此时不需要依赖现场的任何工具或人人协助就可以实现远程的运维和排障。

客户背景

客户为总分连锁企业,总部设立在深圳,北京和武汉都设有分公司,当前IT资产管理通过手工管理,各分公司也是独立管理,对于设备管理,多人拥有设备的管理员权限,经常存在越权操作,发生运维事故无法追述等情况。客户提出了对信息系统的用户和各种资源进行集中管理、集中权限分配、集中审计等需求,具体功能需求如下:

1.总部将各分公司设备进行有序统一管理;
2.提供设备的实时监控,发生运维故障时能够第一时间进行处理;
3.用户账户和设备密码进行统一管理,并且针对特定用户进行对应的角色和权限划分;
4.能够在运维过程中,对违规信息提出告警、权限提升、阻断等操作,及实现事中的实时审计管理;
5.事后的审计录像,能够做到回放、检索、定位播放等;
6.提供应急响应通道,能够在断网情况下的保证设备的管理和操作;

Abloomy方案

实现资产统一管理,监控,防范、控制、审计,和应急响应等全方位服务具体,实现内容如下:

1.实现深圳两个园区,北京和武汉办事处资产统一管理,并形成各区域的网络连接拓扑,完成可视化进行统一的管理;
2.实现总部,分公司等IT管理员统一管理,也进行了相应的权限划分,管理范围和管理权限分明,对于高安全级别的设备授权统一由总部管理员进行授权,做到运维过程中的可管,可监,可控;
3、能够进行事前的防范,针对出现第三方运维人员支持时(如厂商工程师),对其采取定制化的角色类型和访问策略,保证全程的安全可控;
4、在各分公司部署支持4G的分布式堡垒机节点,缺省情况下使用有线网络上行,当网络发生中断时自动切换到4G网络,即使互联网出口中断也不影响运维管理。

客户收获价值

通过部署Abloomy IT运维管理平台,客户的的IT运维工作变得变得更加简单明晰,业务数据得到更高安全级别防护,同时降低了客户IT运维管理成本,为企业提供了运维保障的备份通道。