Spark资源

探索与 Spark 相关的精选开源项目、速读教程和最新工作机会

相关开源项目

Spark logo

apache/spark

42.9k
29.1k
262

统一的大规模数据分析引擎,提供 Scala、Java、Python 高级 API,支持 SQL、机器学习、图处理和流处理等丰富工具。

Scala
Spark
527.8 MB
2026-03-07

整合数据工程学习资源,涵盖从入门到进阶的路线图、书籍、社区、工具及实战项目,助力快速掌握核心技能。

Jupyter Notebook
Spark
Awesome
60.9 MB
2026-02-27

免费9周数据工程课程,涵盖从容器化到流处理的完整数据管道构建。提供动手实践、社区支持与项目实战。

Jupyter Notebook
Spark
Kafka
Docker
9.9 MB
2026-03-06

包含深度学习、scikit-learn、大数据、数据可视化及Python基础等主题的Jupyter Notebook集合,涵盖TensorFlow、Theano、Keras、Spark、Hadoop等工具。

Python
TensorFlow
Pandas
Spark
47.9 MB
2024-03-20
Redash logo

getredash/redash

28.3k
4.6k
741

开源数据可视化与仪表板工具。连接任意数据源,通过浏览器轻松查询、可视化、分享数据。支持 SQL/NoSQL,提供拖拽式图表、自动刷新、警报及 REST API。

Python
数据可视化
Spark
28.7 MB
2026-03-02
Docker Practice logo

yeasy/docker_practice

25.9k
5.8k
0

掌握 Docker 容器技术,从真实案例中学习最佳实践技巧!涵盖从入门到进阶的完整知识体系,包括基础概念、数据管理、网络配置、编排工具及实战扩展。提供在线阅读、Docker 镜像本地运行等多种学习方式。

Go
Spark
Docker
Kubernetes
13.5 MB
2026-03-07
Mlflow logo

mlflow/mlflow

24.6k
5.4k
2.1k

开源 AI 开发者平台,提供端到端追踪、可观测性与评估功能,支持 LLM、智能体、深度学习及传统机器学习,助力构建可靠的 AI 应用。

Python
大语言模型
Spark
1306.5 MB
2026-03-07
Plotly logo

plotly/plotly.py

18.3k
2.8k
777

交互式 Python 绘图库,基于 plotly.js,支持 30+ 图表类型。可导出为静态图像,集成于 Jupyter 和 Dash 应用。

Python
数据可视化
Spark
382.7 MB
2026-03-07
Bigdata Notes logo

heibaiying/bigdata-notes

16.9k
4.3k
37

大数据入门指南,涵盖 Hadoop、Spark、Flink 等核心组件,提供安装、开发与实战教程,助力初学者快速掌握大数据技术栈。

Java
Spark
Kafka
23.5 MB
2024-01-05
Luckysheet logo

dream-num/luckysheet

16.6k
2.6k
685

开源在线电子表格,类似 Excel,功能强大且配置简单。支持格式化、公式、数据透视表、图表、协同编辑等。已升级为 Univer,推荐用于生产环境。

JavaScript
Pandas
Spark
27.5 MB
2025-08-19

汇集数据科学速查表,覆盖 Python、R、数学、大数据及机器学习等领域,助力高效学习与工作。

Spark
119.5 MB
2024-07-18

为 ChatGPT 等多种 LLM 提供轻量级 Web 图形界面,支持 Agent、文件问答、GPT 微调及联网搜索。拥有精致 UI,支持本地部署与多模型。

Python
Spark
3.2 MB
2026-02-28
Doris logo

apache/doris

15.1k
3.7k
789

基于 MPP 架构的易用、高性能实时分析数据库。亚秒级响应海量数据查询,支持高并发点查与复杂分析。适用于报表分析、数据湖加速等场景。

Java
Spark
1192.6 MB
2026-03-07

基于 Flink 1.14.2 的学习项目,涵盖入门、原理、实战、性能调优及源码解析。包含 Connector、Metrics、DataStream/Table API 等案例,以及 PVUV、日志存储、实时去重等大型项目实践。提供专栏《大数据实时计算引擎 Flink 实战与性能优化》。

Java
Spark
Kafka
42.7 MB
2026-03-06

专为 Java 程序员打造的面试指南,涵盖大厂面试题、系统架构、中间件及职场技巧,助力技术提升。

Spark
Kafka
Git
129.3 MB
2025-07-21
Horovod logo

horovod/horovod

14.7k
2.3k
406

分布式深度学习训练框架,支持 TensorFlow、Keras、PyTorch 和 Apache MXNet。基于 MPI 模型,易于扩展,性能高效,可实现单 GPU 到多 GPU、多节点的无缝迁移。

Python
PyTorch
TensorFlow
Spark
6.9 MB
2025-12-02

基于 JVM 的深度学习工具套件,支持 Keras、TensorFlow 和 ONNX/PyTorch 模型导入。包含模块化 C++ 数学库、Java 数学库及 SameDiff 自动微分框架。支持多语言(Scala、Kotlin 等)及跨平台(Windows、Linux、macOS)。

Java
Spark
757.9 MB
2026-03-05
Botkit logo

howdyai/botkit

11.6k
2.3k
45

开源开发者工具,用于为各大消息平台构建聊天机器人、应用和自定义集成。核心库支持多平台适配器,是 Microsoft Bot Framework 的一部分。

TypeScript
Spark
11.8 MB
2024-07-01

专注大数据学习面试,涵盖Flink/Spark/Hadoop/Hbase/Hive等框架,提供系统性学习路径、实战进阶与面试指南,助力大数据成神之路。

Spark
Kafka
67.9 MB
2023-08-07
Sqlglot logo

tobymao/sqlglot

9.0k
1.1k
3

Python SQL 解析器与转译器,支持 31 种方言,无依赖,高性能。可格式化、转换 SQL,分析查询,构建 AST,并检测语法错误。

Python
Spark
53.2 MB
2026-03-07
Mage Ai logo

mage-ai/mage-ai

8.7k
910
536

构建、运行和管理数据管道,支持 Python、SQL、R 模块化开发。提供可视化笔记本式界面,支持本地部署、Docker 快速启动及 dbt 集成。支持调度、调试和多种数据源连接。

Python
Spark
239.7 MB
2026-03-05
Delta logo

delta-io/delta

8.6k
2.0k
1.4k

开源存储框架,支持 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎构建数据湖仓架构,提供 Scala、Java、Rust、Ruby 和 Python API。

Scala
Spark
46.9 MB
2026-03-07
Lang logo

laravel-lang/lang

7.8k
3.0k
0

为 Laravel 框架及其组件提供 128 种语言的本地化文件,支持 Jetstream、Fortify、Breeze、Cashier、Nova 和 UI。

PHP
Spark
Laravel
71.7 MB
2026-03-03
H2O 3 logo

h2oai/h2o-3

7.5k
2.0k
2.9k

开源分布式机器学习平台,支持深度学习、GBM、XGBoost、随机森林、GLM、K-Means、PCA、GAM、SVM、Stacked Ensembles、AutoML 等算法。提供 R、Python、Scala、Java、JSON 和 Flow 接口,兼容 Hadoop 和 Spark,模型可导出为 POJO/MOJO 用于生产环境。

Jupyter Notebook
Spark
611.6 MB
2026-03-07
Alluxio logo

alluxio/alluxio

7.2k
3.0k
1.0k

分布式数据编排平台,为云上分析和机器学习提供缓存加速。支持 Presto、Spark 等引擎,管理亿级文件,提供通用接口连接多种存储系统。

Java
TensorFlow
Spark
200.8 MB
2025-04-30
Angel logo

angel-ml/angel

6.8k
1.6k
136

基于参数服务器理念的高性能分布式机器学习与图计算平台,由腾讯与北京大学联合开发。支持大规模模型训练,兼容 YARN 与 Spark,提供灵活的模型分区与同步机制。

Java
Spark
91.4 MB
2025-10-13
Zeppelin logo

apache/zeppelin

6.6k
2.8k
97

基于 Web 的笔记本,支持 SQL、Scala 等语言,实现数据驱动的交互式分析与协作文档。核心功能包括 Web 笔记本编辑器和内置 Apache Spark 支持。

Java
Spark
113.8 MB
2026-03-07
Ibis logo

ibis-project/ibis

6.4k
706
474

便携式 Python dataframe 库,支持超过 20 个后端。提供快速本地处理(默认 DuckDB)、惰性表达式和交互式探索模式。可混合 Python 与 SQL 代码,通过单行代码切换本地与远程部署。

Python
Pandas
Spark
188.9 MB
2026-03-07
Dev Setup logo

donnemartin/dev-setup

6.3k
1.2k
35

为 macOS 提供自动化开发环境配置脚本,涵盖 Vim、Sublime Text、Python 数据分析、Spark、Hadoop、AWS、Heroku、JavaScript 及 Android 开发等工具,支持自定义安装。

Python
Spark
Git
424 KB
2023-02-28
Hudi logo

apache/hudi

6.1k
2.5k
4.0k

基于高性能开放表格式的数据湖仓平台,支持增删改、增量处理与多云环境管理。提供快照、增量、变更数据捕获等查询,以及原子提交、乐观并发控制等写入能力。

Java
Spark
2593.6 MB
2026-03-07