在 GitHub 上编辑

入门:添加模型

正如我们使用实验跟踪来管理模型开发一样,建立一个模型注册表来管理从实验中获得的模型生命周期也是个好主意。通过 DVC,我们可以利用 Git 仓库来跟踪模型,该仓库将作为模型注册表的唯一真实来源,并使我们能够触发自动化的 CI/CD 工作流。DVC Studio 将在此 Git 仓库的基础上提供一个模型注册表,用于管理所有模型。

记录模型产物

开始所需的一切是一个已设置好的DVC 仓库以及安装了DVCLive Python 库:

$ pip install dvclive

使用 log_artifact 方法让 DVC 缓存模型并将其添加到模型注册表中(此代码片段来自示例仓库中的训练脚本):

你可以 fork 我们的示例仓库,并按照安装步骤在本地进行设置。

from dvclive import Live


with Live() as live:

...

    live.log_artifact(
        str("models/model.pkl"),
        type="model",
        name="pool-segmentation",
        desc="This is a Computer Vision (CV) model that's segmenting out swimming pools from satellite images.",
        labels=["cv", "segmentation", "satellite-images", params.train.arch],
    )

当我们调用 log_artifact() 方法时,DVC 会收集调用中提供的所有信息,并修改dvc.yaml 文件,该文件现在将包含以下内容:

artifacts:
  pool-segmentation:
    path: models/model.pkl
    type: model
    desc:
      This is a Computer Vision (CV) model that's segmenting out swimming pools
      from satellite images.
    labels:
      - cv
      - segmentation
      - satellite-images

如果你不想从 Python 脚本中添加模型,也可以手动编辑dvc.yaml 文件来添加关于模型产物的信息。

从模型到注册表

如果你正在构建自己的仓库,则需要执行以下操作:

  1. 运行脚本
  2. 将脚本以及生成的dvc.yaml 文件提交到 Git
  3. 将结果推送到你的 Git 远程仓库(例如 GitHub)

如果你正在跟随我们的示例仓库,这些步骤已经完成,我们可以继续下一节,了解如何为所有模型设置模型注册表

内容

🐛 发现问题?告诉我们!或者修复它:

在 GitHub 上编辑

有疑问?加入我们的聊天,我们会为您提供帮助:

Discord 聊天