功能总览
本文档按模块说明炎龙智能 Multi-Agent Ops 已实现的产品能力:每项只描述「能解决什么问题」,不涉及内部实现。
1. 平台与租户
多租户管理
- 一套平台服务多个客户,租户之间数据与配置隔离。
- 创建租户时自动生成管理员账号,并复制菜单、角色、场景模板、大模型配置、智能体绑定等,新客户可快速上线。
- 支持租户有效期控制,过期后禁止登录并提示联系管理员。
用户与权限
- 基于角色的菜单与按钮权限,控制谁能看到哪些页面、执行哪些操作。
- 支持部门、岗位、字典、参数、操作日志等基础治理能力。
- 支持企业统一认证登录,满足 SSO 与集中账号管理需求。
首页仪表盘
- 登录后展示关键运维指标与模块入口,快速了解当前环境概况。
- 支持按权限展示不同模块,便于不同角色聚焦各自工作。
授权与交付
- 支持离线私有化 License 交付与加密安全交付(面向商业部署场景)。
2. AI 智能助手
对话式运维
- 用自然语言查询和操作已纳管的资源,例如查看主机负载、查数据库、看 K8s Pod、检索链路等。
- 支持流式输出,实时看到 AI 思考与回复过程。
- 支持对话快捷键,常用问题一键发起。
- 各业务模块可一键跳转到 AI 助手,并自动带上当前实例上下文,无需重复描述环境。
三种协作模式
| 模式 | 适用场景 |
|---|---|
| 单实例 | 针对一台 Redis、一个数据库实例等单独操作 |
| 业务组 | 多个组件编为一组,由协调智能体统一调度,适合联合排障或联合巡检 |
| 根因追问 | 在告警分析完成后,继续就同一故障上下文追问细节 |
业务组编排
- 将多台主机、多个中间件实例组织为「业务组」,定义谁参与协同。
- 可标记业务组是否纳入告警根因分析的分组范围。
- 适合「一次故障涉及多个系统」或「一次巡检覆盖整条业务链」的场景。
工具扩展市场
- 浏览、安装、测试外部工具扩展,扩展 AI 可调用的能力。
- 内置常用运维能力已预置,开箱即可对接主机、数据库、K8s、Prometheus 等。
- 智能体与工具扩展的绑定关系统一管理,便于复用与变更。
知识库
- 智能体可绑定专属知识库,回答更贴合企业内部规范与文档。
- 适合将运维手册、应急预案、架构说明沉淀为 AI 可检索的知识。
Quick 模式
- AI 只给出一条建议命令,由您决定是否执行。
- 适合对误操作敏感的环境,在「得到建议」与「真正执行」之间增加人工确认环节。
大模型配置
- 支持配置多个大模型实例,按场景选择不同模型与参数(如温度、上下文长度等)。
3. 智能根因分析(RCA)
解决的问题
- 告警风暴时不知道哪几条相关、该先处理谁。
- 人工排查跨多个组件,耗时长且依赖个人经验。
- 分析结论难以沉淀,同样问题反复踩坑。
平台能做什么
- 接收外部监控系统(如 Alertmanager)推送的告警并入库。
- 按业务组或默认规则将相关告警在时间窗口内归组,避免逐条孤立分析。
- 自动调度多个专业智能体并行分析,输出根因报告与处理建议。
- 告警状态清晰展示:待分析、AI 分析中、AI 已给出方案。
- 分析完成后可在同一上下文继续 AI 追问,无需重新描述背景。
- 分析开始与完成时,可按规则向指定人员发送通知(短信、邮件、飞书、钉钉、企业微信)。
安全约束
- 根因分析场景下,AI 不会执行删除文件、变更权限等破坏性操作,以分析建议为主。
4. AI 智能巡检
解决的问题
- 人工巡检项多、易遗漏、难以标准化。
- 巡检结果分散在聊天记录或临时文档,不便追溯。
- 发现问题后还要再开一轮排查,上下文断裂。
平台能做什么
- 配置巡检任务:选择业务组、执行周期(支持自然语言辅助生成 Cron 表达式)。
- 定时或手动触发,对组内 Linux、数据库、K8s 等资源做只读健康检查。
- 生成结构化巡检报告并落库,列表可直接查看历史记录。
- 巡检完成后可跳转 AI 助手继续追问,例如「这条异常怎么修」。
- 巡检完成时可按规则发送告警通知。
5. 告警与通知
告警记录
- 集中查看告警通知与根因分析相关记录。
- 支持按标题搜索、按处理时间排序、查看分析组详情。
- 展示 AI 分析进度与最终结论。
通知配置
- 按人员、告警模块(根因分析 / AI 巡检等)、通知渠道配置规则。
- 已支持:短信、邮件、飞书、钉钉、企业微信。
- 通知对象使用系统用户已维护的手机号、邮箱及各 IM 账号。
6. 主机与基础设施
主机管理
- 纳管 Linux / Windows 服务器及网络设备,维护 SSH 等连接信息。
- 支持手动录入、Excel 批量导入、内网自动发现后选择性入库。
- 信息完善度提示,快速找出尚未配置完整的主机。
- SSH 连通性测试;可查看 CPU、内存、磁盘等基础监控数据。
- 主机可绑定智能体,供 AI 远程执行只读命令或经审批的特权命令。
网络设备
- 支持华为等厂商网络设备的命令级运维能力(视实例与智能体配置而定)。
机柜视图
- 以机柜维度组织服务器,便于机房资产可视化(视菜单权限开放)。
7. 数据库与数据服务
数据库实例管理
- 统一管理 MySQL 等关系型数据库连接信息。
- 支持连接测试、实例与智能体绑定。
- 提供 MySQL 专项视图:变量、表、慢查询、进程、集群等(视实例类型开放)。
AI 可操作的数据库能力
- 只读查询:日常查数、看结构、排查问题。
- 特权变更:DDL/DML 等变更需走审批流程,变更前后可对比差异,降低误改风险。
NoSQL
- 支持 MongoDB 等 NoSQL 实例纳管与 AI 辅助运维。
Text2SQL
- 用自然语言生成并执行查询,降低非 SQL 人员的取数门槛(视模块开放)。
8. 中间件与可观测性
平台支持纳管并通过 AI 或监控视图操作的中间件与系统包括(视您购买的模块与实例配置而定):
| 类别 | 典型组件 |
|---|---|
| 缓存 | Redis、Memcached |
| 消息队列 | Kafka、RabbitMQ、RocketMQ、ActiveMQ |
| 搜索 | Elasticsearch |
| 注册配置 | Nacos |
| 监控 | Prometheus、Zabbix、Grafana |
| 链路追踪 | SkyWalking |
| 容器 | Kubernetes |
| CI/CD | Jenkins |
| IoT | EMQX |
各模块通常提供:实例管理、连接测试、基础指标或状态查看、一键跳转 AI 助手等能力。
9. 技能包(Skills)
面向标准化场景,平台提供可复用的技能包,由 AI 按规范执行,输出报告或处理建议:
| 技能 | 能帮您做什么 |
|---|---|
| Linux 服务器巡检 | 负载、CPU、内存、磁盘、systemd、TOP 进程、Docker 状态等只读健康检查 |
| MySQL 巡检 | 数据库侧健康与性能项检查 |
| K8s 负载检测与处理 | 节点与 Pod 负载分析,辅助定位高负载资源 |
| 网络设备巡检 | 华为、H3C、Cisco 等厂商设备的巡检能力 |
| 等保测评 | 辅助资产梳理、基线检查、漏洞扫描、报告生成等合规相关工作 |
技能包强调场景化交付:说清要什么检查,AI 按技能规范执行并给出 Markdown / HTML 报告。
10. 安全与审批
特权命令
- 重启、关机、创建用户等 Linux 高危命令必须经审批后执行。
- 平台提供特权命令任务列表与审批界面,全程留痕。
特权数据库操作
- 只读 SQL 可直接查询;涉及表结构变更、数据变更等需审批。
- 审批前后可展示变更差异,便于审核人判断。
安全防护开关
- 可按租户或环境策略开启/关闭特权拦截与安全保护,适应不同合规要求。
11. 其他能力
- 风险预测:基于 AI 对潜在风险进行预警分析(视模块开放)。
- 架构图:可视化业务或系统架构关系(视模块开放)。
- 外部系统对接:对接外部系统推送或回调(视模块开放)。
- 定时任务管理:平台级定时任务调度能力,与巡检任务联动。
- 代码生成:面向二次开发场景的代码生成工具(偏平台开发能力)。
典型使用路径
- 管理员:创建租户 → 配置用户权限 → 纳管主机与各类实例 → 编排业务组与智能体 → 配置告警通知。
- 值班运维:看首页与告警列表 → 查看 AI 根因报告 → 必要时跳转 AI 追问 → 审批特权变更。
- 巡检人员:配置/手动触发 AI 巡检 → 阅读报告 → 对异常项继续 AI 诊断。
- 业务负责人:查看巡检与告警统计,了解系统健康趋势(视报表权限开放)。
如需了解某一模块的详细能力边界,请继续阅读 监控与运维 分册。
