容器与云原生
容器与云原生模块解决「K8s 集群谁管、负载高怎么查、Pod 出问题怎么定位」的问题。
Kubernetes 管理
解决的问题
- 多个集群、多个命名空间,日常排查要在 kubectl 与监控之间切换。
- 节点或 Pod 资源打满,不知道先驱逐谁、先看哪一层。
平台能做什么
- 实例纳管:登记 K8s 集群连接信息,测试连通性。
- 状态查看:查看节点、Pod、工作负载等运行状态(视菜单与权限开放)。
- AI 辅助运维:通过 AI 助手查询集群资源、定位异常 Pod、分析负载情况等。
- 一键跳转 AI:在 K8s 实例页直接进入 AI 对话,无需重复描述集群上下文。
K8s 负载场景
解决的问题
- 节点 CPU/内存飙高,不清楚是哪些 Pod 占用。
- 需要评估是否驱逐、缩容或扩容,但信息分散。
平台能做什么
- 通过 「K8s 负载检测与处理」技能包,对集群做结构化负载分析。
- 辅助定位高负载 Pod / 节点,并给出处理建议(具体是否执行变更仍受审批策略约束)。
- 可与业务组巡检结合,把 K8s 纳入整条业务链健康检查。
与监控体系的关系
平台可与 Prometheus、Grafana 等可观测性组件配合使用:
- 告警从 Prometheus / Alertmanager 进入平台后,可触发针对 K8s 相关组件的 AI 根因分析。
- Grafana 实例可纳管为辅助视图入口(视配置而定)。
典型场景
| 场景 | 平台能帮您 |
|---|---|
| Pod 一直重启 | AI 查事件、日志摘要、资源限制,给出可能原因 |
| 节点 NotReady | 告警归组后,K8s 智能体参与根因分析 |
| 每周集群巡检 | 业务组包含 K8s 实例,定时只读巡检并出报告 |
| 大促前容量评估 | AI 查节点与 Pod 资源使用率,辅助容量判断 |
安全说明
- 日常查询与巡检以只读为主。
- 驱逐 Pod、修改 Deployment 等变更类操作,遵循平台特权与 Quick 模式策略,避免误操作。
