OpenPAI管理员手册

OpenPAI是一个提供完整人工智能模型训练和资源管理能力的开源平台,它易于扩展,支持各种规模的on-premise环境、on-cloud环境和混合环境。

本手册可帮助管理员学习OpenPAI的安装和卸载、基础的管理操作、数据存储管理、故障排查等,它适用于OpenPAI >= v1.0.0。

目录

  1. 安装指南
  2. 安装常见问题解答和故障排查
  3. 基础管理操作
  4. 如何管理用户和用户组
  5. 如何设置数据存储
  6. 如何设置虚拟集群
  7. 如何添加和移除结点
  8. 如何设置 Docker 镜像缓存
  9. 如何使用插件定制集群
  10. 如何使用报警系统
  11. 故障排查
  12. 推荐实践
  13. 如何卸载OpenPAI
  14. 升级指南