在 GitHub 上编辑

工作区

构建一个高效的数据科学项目结构可能颇具挑战性。你会将机器学习模型组织在嵌套的目录树中,从不同位置链接大型数据集,还是使用临时的文件名约定来区分版本?再加上版本控制需求和依赖管理,很容易让整个过程变得难以处理。

DVC 项目结构通过封装数据版本控制流水线(例如机器学习工作流)等功能得以简化。这样,你的工作区目录就能清晰地展示原始数据、源代码、数据产物等内容,仅包含少量启用这些功能的元数据文件。同一时间只能看到项目的单一版本。

DVC 工作区类似于 Git 中的工作树

工作区中的文件和目录可以添加到 DVC(dvc add),也可以从外部来源下载(dvc getdvc importdvc import-url)。对数据、笔记本、模型以及任何相关机器学习产物的更改都可以被追踪(dvc commit),其内容也可以同步(dvc checkout)。已追踪的数据可以从工作区中移除(dvc remove)。

延伸阅读

内容

🐛 发现问题?告诉我们!或者修复它:

在 GitHub 上编辑

有疑问?加入我们的聊天,我们会为您提供帮助:

Discord 聊天