Skip to content

GitLab

  • Menu
Projects Groups Snippets
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in
  • V verify
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 22
    • Issues 22
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Monitor
    • Monitor
    • Incidents
  • Packages & Registries
    • Packages & Registries
    • Package Registry
    • Container Registry
    • Infrastructure Registry
  • Analytics
    • Analytics
    • CI/CD
    • Repository
    • Value stream
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • ran.lu
  • verify
  • Wiki
  • aim SDK 支持 tensorboard 日志

Last edited by ran.lu Nov 16, 2022
Page history
This is an old version of this page. You can view the most recent version or browse the history.

aim SDK 支持 tensorboard 日志

思路

  • 定时任务不停调用 convert
  • 训练|评估结束时调用 convert

key: 用户无感知;不出错

技术点

convert 支持远程 repo.

修改 convert。

技术点

convert 自启动。

主要是用 __init__ 包导入来做。

技术点

  • 问题: 如何避免多个执行单元执行 convert
  • 回答: 不能用普通单例模式。多进程的可能性比较多,普通单例模式难以保全。打算用系统级的文件锁。这样的话,对于分布式训练,应该也没有问题。

技术点

convert 工具对目录结构有要求,见这里

而我们的模型,并不一定自动会满足这个要求。

两者存在冲突。

所以,打算修改 aim, 使它对目录下的所有 tensorboard 数据,都进行关联。

技术点

结束时,要调一下 convert, 别让数据丢失。

实现:

  • init-container
  • slurm 拼命令
    • 注意,如果 命令不存在,也不要导致命令出错。

数据准备

哪个模型,会产生 tensorboard 数据?

3.137 环境,有 gpu-model.zip:1.0 模型。

/data/nfs/apulis/pvc/aiplatform-ailab-data/1.org/orgadmin-user-group/ai-arts/17062/train-4758cbff-cc5a-4e1c-96ab-b3b4deb539f7

另一方面,凯杰之前有给过文件: tb.tar

涉及项目

  • ai-arts
  • init-container
  • aim
Clone repository
  • 3.137 环境 websocket 连接失败,其它环境无此问题
  • 3.137 环境,即使使用 env 中的 grafana 密码,都无法登陆;测试环境则可以
  • 3.172 不定期出现“疯狂写盘”
  • [2022 11 17] 本地数据集要在 slurm|superpodk8s 上面使用
  • [TODO] 合入日志加速发动
  • [build] 加快 SDK 打包
  • [info] 平台日志
  • [优化] ai arts 调用 aim 时,设置超时时间
  • [问题] aim SDK, 连不上 rpc 时会报错?这不能达到无感知
  • [问题] aimstack 有时会很慢
  • [问题] desay 171 部署: 单个训练成功, 收到 2 次调用, 一次训练成功, 一次训练失败
  • [问题] 收集到的日志只有几个服务。问题: 这个是哪里配置的?
  • aim SDK 支持 tensorboard 日志
  • aim SDK 瘦身
  • gpu02环境 选择 推理模型目录 很慢
View All Pages