炎龙智能 Multi-Agent Ops炎龙智能 Multi-Agent Ops
首页
平台介绍
功能总览
监控与运维
首页
平台介绍
功能总览
监控与运维
  • 监控与运维

    • 监控与运维
    • 平台管理
    • AI 智能运维
    • 主机与基础设施
    • 容器与云原生
    • 数据库
    • 中间件与可观测性
    • 技能包(Skills)

容器与云原生

容器与云原生模块解决「K8s 集群谁管、负载高怎么查、Pod 出问题怎么定位」的问题。

Kubernetes 管理

解决的问题

  • 多个集群、多个命名空间,日常排查要在 kubectl 与监控之间切换。
  • 节点或 Pod 资源打满,不知道先驱逐谁、先看哪一层。

平台能做什么

  • 实例纳管:登记 K8s 集群连接信息,测试连通性。
  • 状态查看:查看节点、Pod、工作负载等运行状态(视菜单与权限开放)。
  • AI 辅助运维:通过 AI 助手查询集群资源、定位异常 Pod、分析负载情况等。
  • 一键跳转 AI:在 K8s 实例页直接进入 AI 对话,无需重复描述集群上下文。

K8s 负载场景

解决的问题

  • 节点 CPU/内存飙高,不清楚是哪些 Pod 占用。
  • 需要评估是否驱逐、缩容或扩容,但信息分散。

平台能做什么

  • 通过 「K8s 负载检测与处理」技能包,对集群做结构化负载分析。
  • 辅助定位高负载 Pod / 节点,并给出处理建议(具体是否执行变更仍受审批策略约束)。
  • 可与业务组巡检结合,把 K8s 纳入整条业务链健康检查。

与监控体系的关系

平台可与 Prometheus、Grafana 等可观测性组件配合使用:

  • 告警从 Prometheus / Alertmanager 进入平台后,可触发针对 K8s 相关组件的 AI 根因分析。
  • Grafana 实例可纳管为辅助视图入口(视配置而定)。

典型场景

场景平台能帮您
Pod 一直重启AI 查事件、日志摘要、资源限制,给出可能原因
节点 NotReady告警归组后,K8s 智能体参与根因分析
每周集群巡检业务组包含 K8s 实例,定时只读巡检并出报告
大促前容量评估AI 查节点与 Pod 资源使用率,辅助容量判断

安全说明

  • 日常查询与巡检以只读为主。
  • 驱逐 Pod、修改 Deployment 等变更类操作,遵循平台特权与 Quick 模式策略,避免误操作。

延伸阅读

  • AI 智能运维
  • 技能包 · K8s 负载检测
最近更新:: 2026/6/23 10:38
Contributors: sunxiaokun, yanlong-ai, Cursor
Prev
主机与基础设施
Next
数据库
© 2026 炎龙智能科技 · 保留所有权利