在 GitHub 上编辑
入门:添加模型
正如我们使用实验跟踪来管理模型开发一样,建立一个模型注册表来管理从实验中获得的模型生命周期也是个好主意。通过 DVC,我们可以利用 Git 仓库来跟踪模型,该仓库将作为模型注册表的唯一真实来源,并使我们能够触发自动化的 CI/CD 工作流。DVC Studio 将在此 Git 仓库的基础上提供一个模型注册表,用于管理所有模型。
记录模型产物
开始所需的一切是一个已设置好的DVC 仓库以及安装了DVCLive Python 库:
$ pip install dvclive
使用 log_artifact
方法让 DVC 缓存模型并将其添加到模型注册表中(此代码片段来自示例仓库中的训练脚本):
你可以 fork 我们的示例仓库,并按照安装步骤在本地进行设置。
from dvclive import Live
with Live() as live:
...
live.log_artifact(
str("models/model.pkl"),
type="model",
name="pool-segmentation",
desc="This is a Computer Vision (CV) model that's segmenting out swimming pools from satellite images.",
labels=["cv", "segmentation", "satellite-images", params.train.arch],
)
💡 展开查看其底层工作原理以及其他添加模型的方式
当我们调用 log_artifact()
方法时,DVC 会收集调用中提供的所有信息,并修改dvc.yaml
文件,该文件现在将包含以下内容:
artifacts:
pool-segmentation:
path: models/model.pkl
type: model
desc:
This is a Computer Vision (CV) model that's segmenting out swimming pools
from satellite images.
labels:
- cv
- segmentation
- satellite-images
如果你不想从 Python 脚本中添加模型,也可以手动编辑dvc.yaml
文件来添加关于模型产物的信息。
从模型到注册表
如果你正在构建自己的仓库,则需要执行以下操作:
- 运行脚本
- 将脚本以及生成的
dvc.yaml
文件提交到 Git - 将结果推送到你的 Git 远程仓库(例如 GitHub)
如果你正在跟随我们的示例仓库,这些步骤已经完成,我们可以继续下一节,了解如何为所有模型设置模型注册表。