在 GitHub 上编辑
如何添加依赖项或输出
要向阶段添加依赖项或输出项,请编辑dvc.yaml
文件(手动编辑或使用带-f
标志的dvc stage add
)。准备就绪后,dvc repro
将执行该阶段并缓存输出文件。
如果该阶段已经执行过,并且所需的输出已存在于工作区中,则可以避免使用dvc repro
(这可能开销较大且不必要),而改用dvc commit
。
请注意,这两种方式都会同时更新
dvc.lock
。
示例
我们从一个示例prepare
阶段开始,该阶段具有单个依赖项和输出项。为了添加缺失的依赖项(data/raw.csv
)以及缺失的输出项(data/validate
),我们可以这样编辑dvc.yaml
:
stages:
prepare:
cmd: python src/prepare.py
deps:
+ - data/raw.csv
- src/prepare.py
outs:
- data/train
+ - data/validate
我们也可以使用带
-f
参数的dvc stage add
为该阶段添加另一个依赖项或输出项:$ dvc stage add -n prepare \ -f \ -d src/prepare.py \ -d data/raw.csv \ -o data/train \ -o data/validate \ python src/prepare.py data/raw.csv
-f
会覆盖dvc.yaml
中的阶段。
如果data/raw.csv
或data/validate
文件已经存在,我们可以使用dvc commit
来缓存新指定的输出项(并更新dvc.lock
中的deps
和outs
文件哈希值):
$ dvc commit