本模块覆盖缓存、消息队列、搜索、注册配置、监控与链路等中间件与可观测系统的纳管与 AI 辅助运维。
- 中间件种类多,每种一套控制台,学习成本高。
- 告警往往只告诉「Redis 挂了」,还要人工猜是内存、连接数还是主从切换。
- 消息堆积、ES 集群黄了、Nacos 配置错了,排查路径依赖个人经验。
- 在同一平台登记各类中间件实例。
- 为实例绑定智能体,通过 AI 统一查询状态、配置与指标。
- 实例页一键跳转 AI,自动带上组件上下文。
- 纳入业务组后,可与根因分析、AI 巡检联动。
- 实例纳管与连接测试。
- AI 查询键空间、内存、连接、慢日志等(只读为主)。
- Redis 相关告警可进入根因分析流程。
- Kafka
- RabbitMQ
- RocketMQ
- ActiveMQ
- 查看队列 / Topic 堆积、消费延迟、节点健康等。
- 告警或人工提问时,由 AI 结合实例信息给出排查方向。
- 跨组件故障时,MQ 智能体可与其他实例协同参与 RCA。
- 集群健康、索引状态、节点资源等查询与 AI 辅助分析。
- 配置与服务发现相关的状态查看与 AI 辅助排查(如配置不一致、服务未注册等场景)。
- 纳管 Prometheus 地址,作为告警与指标数据源之一。
- 与 Alertmanager 配合,告警进入平台触发 AI 分析。
- 链路追踪实例纳管。
- AI 可按服务、实例、端点等层级辅助查询调用链,定位慢请求与错误传播路径。
- 纳管 Grafana 作为可视化入口补充(视配置而定)。
| 组件 | 典型用途 |
|---|
| Jenkins | CI 任务与构建状态相关运维 |
| GitLab | 代码仓库与流水线相关查询 |
| EMQX | IoT 消息接入与连接状态 |
| 虚拟机 / VM | 虚拟化资源视图 |
| 现象 | 平台能帮您 |
|---|
| Kafka 消费 lag 暴涨 | AI 查 Topic、消费者组、Broker 状态,给出可能原因 |
| Redis 内存告警 | 告警归组 → Redis 智能体参与 RCA → 通知值班 |
| ES 集群变黄 | AI 查分片、节点磁盘、索引状态 |
| 跨 MQ + DB 故障 | 业务组多智能体联合分析 |
- 中间件日常操作以查询与诊断为主。
- 涉及删除数据、改配置、重启 broker 等变更,遵循特权审批或 Quick 确认策略。