快速安全的数据缓存中心
数据科学中使用的数据集通常超出常规的存储和网络容量。当越来越多的人获取相同数据时,存储需求迅速增长,导致数据重复(增加成本)。在每个环境中等待下载会浪费宝贵的时间。
DVC 内置的数据 缓存 功能,可让您为整个团队在全球范围内实现一个简单高效的数据存储层。这种方法可以帮助
-
加速从云端大规模对象存储中传输数据,或在多台机器之间共享数据而不会降低性能。
-
仅需为频繁访问的数据支付高速访问费用(升级整个存储平台成本高昂)。
-
当多人处理相同数据时(例如在共享开发服务器上),避免重复下载和文件复制。
-
在用于机器学习实验的共享服务器上,快速切换数据输入(无需重新下载)。
您可以通过在就近位置(如局域网、外接硬盘等)设置共享 DVC 缓存,为所有项目使用统一的存储空间。这能跨数据集消除重复文件,并通过链接您的工作文件和目录来防止重复传输。由于数据始终保留在中央存储中,因此可以可靠地实施数据安全策略。DVC 还可以帮助您将数据和机器学习模型备份并共享到外部/远程位置。
现在,您的团队共享一个主存储,它可以作为基础设施的一部分独立管理;根据数据访问速度和成本需求灵活配置。您可以随时自由切换存储提供商,而无需更改项目的目录结构或代码。
接下来做什么?
有关 DVC 如何缓存文件和目录的详细信息,请参阅缓存目录结构。如果您是首次使用 DVC,请查看我们的入门指南,了解结构化存储和数据版本控制的主要功能。此外,请参考以下示例,了解分层存储架构提供的具体解决方案。
示例:共享开发服务器
一些团队倾向于使用一台共享机器来运行实验。这是一种提高资源利用率的简单方式(快速传输、集中存储、GPU 访问等)。每个人仍可在独立的工作区中工作(例如各自的用户主目录)。
首先配置一个共享 DVC 缓存。现在,当同事对项目进行更改后,您只需使用dvc checkout
即可获取最新结果。DVC 会立即把数据文件和目录链接到您的工作区,因此数据产物永远不会被移动或复制。
$ git pull
$ dvc checkout
A data/new
M data/labels