... | ... | @@ -47,6 +47,14 @@ convert 工具对目录结构有要求,见[这里](https://aimstack.readthedoc |
|
|
- slurm 拼命令
|
|
|
- 注意,如果 命令不存在,也不要导致命令出错。
|
|
|
|
|
|
# 要点
|
|
|
|
|
|
考虑 aimstack rpc 服务访问不到的影响
|
|
|
- 定时转换,是用 os.system 去转的,连不上影响不大
|
|
|
- 结束时:
|
|
|
- 对于有 init-container 的情况,没问题, 只会告警
|
|
|
- 对于没有 init-container 的情况,可能要插入一个伪命令。
|
|
|
|
|
|
# 改动涉及项目
|
|
|
|
|
|
- ai-arts aistudio-v1.7.1-tensorboard-logs
|
... | ... | @@ -103,9 +111,18 @@ update studio_model_versions engine set engine = 'harbor.apulis.cn:8443/algorith |
|
|
自测:
|
|
|
- [x] 本地集群
|
|
|
- [ ] slurm 集群
|
|
|
- 这个目前不知如何向 slurm 任务里面复制文件,现在先没有测。
|
|
|
|
|
|
# TODO
|
|
|
|
|
|
- [ ] 定时转换 tensorboard 会形成较多日志,可以隐藏一下。
|
|
|
- [x] 时间间隔别写死。
|
|
|
- 已经可配置了: `AILAB_JOB_CONVERT_INTERVAL`环境变量。
|
|
|
|
|
|
|
|
|
# caveat
|
|
|
- 如果用户使用的镜像没有安装 tensorflow , 则会失败。这个估计影响不大,因为这种情况,用户估计没有用 tensorboard …
|
|
|
## 1. 如果用户使用的镜像没有安装 tensorflow , 则会失败。这个估计影响不大,因为这种情况,用户估计没有用 tensorboard …
|
|
|
## 2. 没有入口: 因为现在实验对比,只能查看”运行中“的。
|
|
|
|
|
|
# 其它
|
|
|
|
... | ... | |