AI 智能运维
AI 智能运维是 Multi-Agent Ops 的核心差异化能力,覆盖对话式运维、告警根因分析、定时巡检三大场景。
AI 助手
解决的问题
- 查一个问题要在多个系统间切换。
- 新人不熟悉命令,老人重复打同样的命令。
- 从告警页、实例页跳转 AI 时还要重新描述环境。
平台能做什么
- 用自然语言查询和操作已纳管资源。
- 流式对话,实时看到分析过程。
- 从主机、数据库、Redis、K8s、根因分析、巡检等页面一键跳转,自动带上当前实例上下文。
- 对话快捷键,常用问题一键发起。
- 可绑定专属知识库,回答更贴合企业内部文档。
- 支持配置不同大模型及温度、上下文长度等参数。
三种协作方式
| 方式 | 什么时候用 |
|---|---|
| 单实例 | 只操作一台 Redis、一个 MySQL 等 |
| 业务组 | 一次要动/查多个组件,如「整条链路一起查」 |
| 根因追问 | 告警 AI 分析完后,继续问「为什么是这个根因」 |
业务组与工具扩展
解决的问题
- 微服务架构下单点 AI 看不全整条业务链。
- 企业已有外部工具,希望 AI 也能调用。
平台能做什么
- 业务组:把多个实例编为一组,由协调智能体统一调度子智能体。
- 可设置业务组是否参与告警根因的分组归并。
- 工具扩展市场:浏览、安装、测试外部工具扩展;内置运维能力开箱可用。
- 智能体与工具关系集中配置,改一次处处生效。
智能根因分析(RCA)
解决的问题
- 告警一来就是一堆,不知道哪几条是一回事。
- 人工猜根因慢,结论难沉淀。
- 分析完还要另开窗口继续问。
平台能做什么
- 接收告警:对接 Prometheus Alertmanager 等,告警自动入库。
- 智能归组:按业务组或默认规则,在时间窗口内合并相关告警。
- 多智能体分析:自动选择相关组件的智能体并行分析,输出根因与处理建议。
- 状态清晰:待分析 → AI 分析中 → 已给出 AI 方案,一目了然。
- 继续追问:在分析组详情一键进入 AI,上下文不丢失。
- 消息触达:分析开始/完成可按规则通知值班人员。
您会得到什么
- 分析组级别的根因摘要与建议措施。
- 关联告警列表与处理时间线。
- 可检索、可回顾的历史分析记录。
安全说明
根因分析以诊断与建议为主,不会在该场景下执行删文件、改权限等破坏性操作。
AI 智能巡检
解决的问题
- 人工巡检 checklist 难统一、难追溯。
- 巡检发现异常后,还要重新组织语言问 AI。
平台能做什么
- 配置巡检范围(通常为一个业务组)与执行周期。
- 支持自然语言辅助生成 Cron 表达式,降低定时配置门槛。
- 定时或手动触发,对组内资源做只读健康检查。
- 生成 HTML 巡检报告并保存,列表随时回看。
- 巡检完成后可继续 AI 追问。
- 可按规则在巡检完成时发送通知。
Quick 模式
解决的问题
- 全自动执行命令怕误操作;完全手动又太慢。
平台能做什么
- AI 只输出一条建议命令(如 bash 运维命令)。
- 由您在前端决定是否执行,执行前可再次确认。
- 适合生产环境「AI 给思路、人拍板」的工作方式。
特权与安全
解决的问题
- AI 方便,但不能让重启、删库这种事自动发生。
平台能做什么
- Linux 高危命令(重启、关机等)必须走审批后才会执行。
- 数据库 DDL/DML 等特权 SQL 同样需审批。
- 审批前后可展示变更差异,方便审核。
- 根因分析、巡检默认以只读为主。
典型场景举例
| 场景 | 平台表现 |
|---|---|
| 凌晨 Redis 告警 | 告警归组 → AI 分析 → 短信通知值班 → 值班打开报告继续追问 |
| 每周一巡检 | 定时任务触发 → 业务组全量只读检查 → 邮件发送报告链接 |
| 新人查慢 SQL | 打开 MySQL 实例 → 跳转 AI → 自然语言问「最近慢查询 Top5」 |
| 生产环境改表 | AI 给出 ALTER 语句 → 进入特权审批 → 审核通过后执行 |
