快速安全的数据缓存中心

数据科学中使用的数据集通常超出常规的存储和网络容量。当越来越多的人获取相同数据时，存储需求迅速增长，导致数据重复（增加成本）。在每个环境中等待下载会浪费宝贵的时间。

用户需要反复等待数据传输，并在本地生成多个数据副本。

DVC 内置的数据缓存功能，可让您为整个团队在全球范围内实现一个简单高效的数据存储层。这种方法可以帮助

适用于多个项目的中间数据存储方案

您可以通过在就近位置（如局域网、外接硬盘等）设置共享 DVC 缓存，为所有项目使用统一的存储空间。这能跨数据集消除重复文件，并通过链接您的工作文件和目录来防止重复传输。由于数据始终保留在中央存储中，因此可以可靠地实施数据安全策略。DVC 还可以帮助您将数据和机器学习模型备份并共享到外部/远程位置。

现在，您的团队共享一个主存储，它可以作为基础设施的一部分独立管理；根据数据访问速度和成本需求灵活配置。您可以随时自由切换存储提供商，而无需更改项目的目录结构或代码。

有关 DVC 如何缓存文件和目录的详细信息，请参阅缓存目录结构。如果您是首次使用 DVC，请查看我们的入门指南，了解结构化存储和数据版本控制的主要功能。此外，请参考以下示例，了解分层存储架构提供的具体解决方案。

示例：共享开发服务器

一些团队倾向于使用一台共享机器来运行实验。这是一种提高资源利用率的简单方式（快速传输、集中存储、GPU 访问等）。每个人仍可在独立的工作区中工作（例如各自的用户主目录）。

DVC 项目共享的数据存储

首先配置一个共享 DVC 缓存。现在，当同事对项目进行更改后，您只需使用dvc checkout即可获取最新结果。DVC 会立即把数据文件和目录链接到您的工作区，因此数据产物永远不会被移动或复制。

$ git pull
$ dvc checkout
A       data/new
M       data/labels