AI 智能运维

AI 智能运维是 Multi-Agent Ops 的核心差异化能力，覆盖对话式运维、告警根因分析、定时巡检三大场景。

AI 助手

解决的问题

查一个问题要在多个系统间切换。
新人不熟悉命令，老人重复打同样的命令。
从告警页、实例页跳转 AI 时还要重新描述环境。

平台能做什么

用自然语言查询和操作已纳管资源。
流式对话，实时看到分析过程。
从主机、数据库、Redis、K8s、根因分析、巡检等页面一键跳转，自动带上当前实例上下文。
对话快捷键，常用问题一键发起。
可绑定专属知识库，回答更贴合企业内部文档。
支持配置不同大模型及温度、上下文长度等参数。

三种协作方式

方式	什么时候用
单实例	只操作一台 Redis、一个 MySQL 等
业务组	一次要动/查多个组件，如「整条链路一起查」
根因追问	告警 AI 分析完后，继续问「为什么是这个根因」

业务组与工具扩展

解决的问题

微服务架构下单点 AI 看不全整条业务链。
企业已有外部工具，希望 AI 也能调用。

平台能做什么

业务组：把多个实例编为一组，由协调智能体统一调度子智能体。
可设置业务组是否参与告警根因的分组归并。
工具扩展市场：浏览、安装、测试外部工具扩展；内置运维能力开箱可用。
智能体与工具关系集中配置，改一次处处生效。

智能根因分析（RCA）

解决的问题

告警一来就是一堆，不知道哪几条是一回事。
人工猜根因慢，结论难沉淀。
分析完还要另开窗口继续问。

平台能做什么

接收告警：对接 Prometheus Alertmanager 等，告警自动入库。
智能归组：按业务组或默认规则，在时间窗口内合并相关告警。
多智能体分析：自动选择相关组件的智能体并行分析，输出根因与处理建议。
状态清晰：待分析 → AI 分析中 → 已给出 AI 方案，一目了然。
继续追问：在分析组详情一键进入 AI，上下文不丢失。
消息触达：分析开始/完成可按规则通知值班人员。

您会得到什么

分析组级别的根因摘要与建议措施。
关联告警列表与处理时间线。
可检索、可回顾的历史分析记录。

安全说明

根因分析以诊断与建议为主，不会在该场景下执行删文件、改权限等破坏性操作。

AI 智能巡检

解决的问题

人工巡检 checklist 难统一、难追溯。
巡检发现异常后，还要重新组织语言问 AI。

平台能做什么

配置巡检范围（通常为一个业务组）与执行周期。
支持自然语言辅助生成 Cron 表达式，降低定时配置门槛。
定时或手动触发，对组内资源做只读健康检查。
生成 HTML 巡检报告并保存，列表随时回看。
巡检完成后可继续 AI 追问。
可按规则在巡检完成时发送通知。

Quick 模式

解决的问题

全自动执行命令怕误操作；完全手动又太慢。

平台能做什么

AI 只输出一条建议命令（如 bash 运维命令）。
由您在前端决定是否执行，执行前可再次确认。
适合生产环境「AI 给思路、人拍板」的工作方式。

特权与安全

解决的问题

AI 方便，但不能让重启、删库这种事自动发生。

平台能做什么

Linux 高危命令（重启、关机等）必须走审批后才会执行。
数据库 DDL/DML 等特权 SQL 同样需审批。
审批前后可展示变更差异，方便审核。
根因分析、巡检默认以只读为主。

典型场景举例

场景	平台表现
凌晨 Redis 告警	告警归组 → AI 分析 → 短信通知值班 → 值班打开报告继续追问
每周一巡检	定时任务触发 → 业务组全量只读检查 → 邮件发送报告链接
新人查慢 SQL	打开 MySQL 实例 → 跳转 AI → 自然语言问「最近慢查询 Top5」
生产环境改表	AI 给出 ALTER 语句 → 进入特权审批 → 审核通过后执行

延伸阅读