功能总览

本文档按模块说明炎龙智能 Multi-Agent Ops 已实现的产品能力：每项只描述「能解决什么问题」，不涉及内部实现。

1. 平台与租户

多租户管理

一套平台服务多个客户，租户之间数据与配置隔离。
创建租户时自动生成管理员账号，并复制菜单、角色、场景模板、大模型配置、智能体绑定等，新客户可快速上线。
支持租户有效期控制，过期后禁止登录并提示联系管理员。

用户与权限

基于角色的菜单与按钮权限，控制谁能看到哪些页面、执行哪些操作。
支持部门、岗位、字典、参数、操作日志等基础治理能力。
支持企业统一认证登录，满足 SSO 与集中账号管理需求。

首页仪表盘

登录后展示关键运维指标与模块入口，快速了解当前环境概况。
支持按权限展示不同模块，便于不同角色聚焦各自工作。

授权与交付

支持离线私有化 License 交付与加密安全交付（面向商业部署场景）。

2. AI 智能助手

对话式运维

用自然语言查询和操作已纳管的资源，例如查看主机负载、查数据库、看 K8s Pod、检索链路等。
支持流式输出，实时看到 AI 思考与回复过程。
支持对话快捷键，常用问题一键发起。
各业务模块可一键跳转到 AI 助手，并自动带上当前实例上下文，无需重复描述环境。

三种协作模式

模式	适用场景
单实例	针对一台 Redis、一个数据库实例等单独操作
业务组	多个组件编为一组，由协调智能体统一调度，适合联合排障或联合巡检
根因追问	在告警分析完成后，继续就同一故障上下文追问细节

业务组编排

将多台主机、多个中间件实例组织为「业务组」，定义谁参与协同。
可标记业务组是否纳入告警根因分析的分组范围。
适合「一次故障涉及多个系统」或「一次巡检覆盖整条业务链」的场景。

工具扩展市场

浏览、安装、测试外部工具扩展，扩展 AI 可调用的能力。
内置常用运维能力已预置，开箱即可对接主机、数据库、K8s、Prometheus 等。
智能体与工具扩展的绑定关系统一管理，便于复用与变更。

知识库

智能体可绑定专属知识库，回答更贴合企业内部规范与文档。
适合将运维手册、应急预案、架构说明沉淀为 AI 可检索的知识。

Quick 模式

AI 只给出一条建议命令，由您决定是否执行。
适合对误操作敏感的环境，在「得到建议」与「真正执行」之间增加人工确认环节。

大模型配置

支持配置多个大模型实例，按场景选择不同模型与参数（如温度、上下文长度等）。

3. 智能根因分析（RCA）

解决的问题

告警风暴时不知道哪几条相关、该先处理谁。
人工排查跨多个组件，耗时长且依赖个人经验。
分析结论难以沉淀，同样问题反复踩坑。

平台能做什么

接收外部监控系统（如 Alertmanager）推送的告警并入库。
按业务组或默认规则将相关告警在时间窗口内归组，避免逐条孤立分析。
自动调度多个专业智能体并行分析，输出根因报告与处理建议。
告警状态清晰展示：待分析、AI 分析中、AI 已给出方案。
分析完成后可在同一上下文继续 AI 追问，无需重新描述背景。
分析开始与完成时，可按规则向指定人员发送通知（短信、邮件、飞书、钉钉、企业微信）。

安全约束

根因分析场景下，AI 不会执行删除文件、变更权限等破坏性操作，以分析建议为主。

4. AI 智能巡检

解决的问题

人工巡检项多、易遗漏、难以标准化。
巡检结果分散在聊天记录或临时文档，不便追溯。
发现问题后还要再开一轮排查，上下文断裂。

平台能做什么

配置巡检任务：选择业务组、执行周期（支持自然语言辅助生成 Cron 表达式）。
定时或手动触发，对组内 Linux、数据库、K8s 等资源做只读健康检查。
生成结构化巡检报告并落库，列表可直接查看历史记录。
巡检完成后可跳转 AI 助手继续追问，例如「这条异常怎么修」。
巡检完成时可按规则发送告警通知。

5. 告警与通知

告警记录

集中查看告警通知与根因分析相关记录。
支持按标题搜索、按处理时间排序、查看分析组详情。
展示 AI 分析进度与最终结论。

通知配置

按人员、告警模块（根因分析 / AI 巡检等）、通知渠道配置规则。
已支持：短信、邮件、飞书、钉钉、企业微信。
通知对象使用系统用户已维护的手机号、邮箱及各 IM 账号。

6. 主机与基础设施

主机管理

纳管 Linux / Windows 服务器及网络设备，维护 SSH 等连接信息。
支持手动录入、Excel 批量导入、内网自动发现后选择性入库。
信息完善度提示，快速找出尚未配置完整的主机。
SSH 连通性测试；可查看 CPU、内存、磁盘等基础监控数据。
主机可绑定智能体，供 AI 远程执行只读命令或经审批的特权命令。

网络设备

支持华为等厂商网络设备的命令级运维能力（视实例与智能体配置而定）。

机柜视图

以机柜维度组织服务器，便于机房资产可视化（视菜单权限开放）。

7. 数据库与数据服务

数据库实例管理

统一管理 MySQL 等关系型数据库连接信息。
支持连接测试、实例与智能体绑定。
提供 MySQL 专项视图：变量、表、慢查询、进程、集群等（视实例类型开放）。

AI 可操作的数据库能力

只读查询：日常查数、看结构、排查问题。
特权变更：DDL/DML 等变更需走审批流程，变更前后可对比差异，降低误改风险。

NoSQL

支持 MongoDB 等 NoSQL 实例纳管与 AI 辅助运维。

Text2SQL

用自然语言生成并执行查询，降低非 SQL 人员的取数门槛（视模块开放）。

8. 中间件与可观测性

平台支持纳管并通过 AI 或监控视图操作的中间件与系统包括（视您购买的模块与实例配置而定）：

类别	典型组件
缓存	Redis、Memcached
消息队列	Kafka、RabbitMQ、RocketMQ、ActiveMQ
搜索	Elasticsearch
注册配置	Nacos
监控	Prometheus、Zabbix、Grafana
链路追踪	SkyWalking
容器	Kubernetes
CI/CD	Jenkins
IoT	EMQX

各模块通常提供：实例管理、连接测试、基础指标或状态查看、一键跳转 AI 助手等能力。

9. 技能包（Skills）

面向标准化场景，平台提供可复用的技能包，由 AI 按规范执行，输出报告或处理建议：

技能	能帮您做什么
Linux 服务器巡检	负载、CPU、内存、磁盘、systemd、TOP 进程、Docker 状态等只读健康检查
MySQL 巡检	数据库侧健康与性能项检查
K8s 负载检测与处理	节点与 Pod 负载分析，辅助定位高负载资源
网络设备巡检	华为、H3C、Cisco 等厂商设备的巡检能力
等保测评	辅助资产梳理、基线检查、漏洞扫描、报告生成等合规相关工作

技能包强调场景化交付：说清要什么检查，AI 按技能规范执行并给出 Markdown / HTML 报告。

10. 安全与审批

特权命令

重启、关机、创建用户等 Linux 高危命令必须经审批后执行。
平台提供特权命令任务列表与审批界面，全程留痕。

特权数据库操作

只读 SQL 可直接查询；涉及表结构变更、数据变更等需审批。
审批前后可展示变更差异，便于审核人判断。

安全防护开关

可按租户或环境策略开启/关闭特权拦截与安全保护，适应不同合规要求。

11. 其他能力

风险预测：基于 AI 对潜在风险进行预警分析（视模块开放）。
架构图：可视化业务或系统架构关系（视模块开放）。
外部系统对接：对接外部系统推送或回调（视模块开放）。
定时任务管理：平台级定时任务调度能力，与巡检任务联动。
代码生成：面向二次开发场景的代码生成工具（偏平台开发能力）。

典型使用路径

管理员：创建租户 → 配置用户权限 → 纳管主机与各类实例 → 编排业务组与智能体 → 配置告警通知。
值班运维：看首页与告警列表 → 查看 AI 根因报告 → 必要时跳转 AI 追问 → 审批特权变更。
巡检人员：配置/手动触发 AI 巡检 → 阅读报告 → 对异常项继续 AI 诊断。
业务负责人：查看巡检与告警统计，了解系统健康趋势（视报表权限开放）。

如需了解某一模块的详细能力边界，请继续阅读监控与运维分册。