OpenPAI管理员手册

OpenPAI是一个提供完整人工智能模型训练和资源管理能力的开源平台,它易于扩展,支持各种规模的on-premise环境、on-cloud环境和混合环境。

本手册可帮助管理员学习OpenPAI的安装和卸载、基础的管理操作、数据存储管理、故障排查等,它适用于OpenPAI >= v1.0.0。

目录

 1. 安装指南
 2. 安装常见问题解答和故障排查
 3. 基础管理操作
 4. 如何管理用户和用户组
 5. 如何设置数据存储
 6. 如何设置虚拟集群
 7. 如何添加和移除结点
 8. 如何设置 Docker 镜像缓存
 9. 如何使用插件定制集群
 10. 如何使用报警系统
 11. 如何自动调整集群大小
 12. 如何更新K8S证书
 13. 故障排查
 14. 推荐实践
 15. 如何卸载OpenPAI
 16. 升级指南