Spark资源

探索与 Spark 相关的精选开源项目、速读教程和最新工作机会

相关开源项目

Lakefs logo

treeverse/lakefs

5.2k
444
443

lakeFS 是开源数据湖版本控制工具,提供类 Git 的数据管理能力。支持 AWS S3、Azure Blob Storage 和 Google Cloud Storage,兼容 S3 API,可与 Spark、Hive 等框架无缝集成。实现可重复、原子性的数据湖操作,适用于 ETL 测试、数据科学和分析。

Go
Spark
Git
大语言模型
173.0 MB
2026-04-21
Synapseml logo

microsoft/synapseml

5.2k
858
386

基于 Apache Spark 的开源库,简化大规模机器学习管道的创建。提供简单、可组合的分布式 API,支持文本分析、视觉、异常检测等任务。兼容 Python、R、Scala、Java 和 .NET,可无缝集成到现有 Spark 工作流中。

Scala
Spark
176.9 MB
2026-04-21