在 GitHub 上编辑
工作区
构建一个高效的数据科学项目结构可能颇具挑战性。你会将机器学习模型组织在嵌套的目录树中,从不同位置链接大型数据集,还是使用临时的文件名约定来区分版本?再加上版本控制需求和依赖管理,很容易让整个过程变得难以处理。
DVC 项目结构通过封装数据版本控制和流水线(例如机器学习工作流)等功能得以简化。这样,你的工作区目录就能清晰地展示原始数据、源代码、数据产物等内容,仅包含少量启用这些功能的元数据文件。同一时间只能看到项目的单一版本。
DVC 工作区类似于 Git 中的工作树。
工作区中的文件和目录可以添加到 DVC(dvc add
),也可以从外部来源下载(dvc get
、dvc import
、dvc import-url
)。对数据、笔记本、模型以及任何相关机器学习产物的更改都可以被追踪(dvc commit
),其内容也可以同步(dvc checkout
)。已追踪的数据可以从工作区中移除(dvc remove
)。