Spark资源

探索与 Spark 相关的精选开源项目、速读教程和最新工作机会

相关开源项目

None logo

apache/spark

41.4k
28.7k
191

Apache Spark - 用于大规模数据处理的统一分析引擎

Scala
Spark
493.2 MB
2025-07-04

这是一个包含所有你想了解的数据工程相关学习资源的仓库。

Jupyter Notebook
Spark
Awesome
57.0 MB
2025-07-01

数据工程Zoom训练营是一个为期九周的免费课程,涵盖数据工程的基础知识。

Jupyter Notebook
Spark
Kafka
Docker
8.5 MB
2025-06-27

数据科学Python笔记本:深度学习(TensorFlow、Theano、Caffe、Keras)、scikit-learn、Kaggle、大数据(Spark、Hadoop MapReduce、HDFS)、matplotlib、pandas、NumPy、SciPy、Python基础、AWS以及各种命令行工具。

Python
TensorFlow
Pandas
Spark
47.9 MB
2024-03-20
None logo

getredash/redash

27.5k
4.5k
724

让您的公司数据驱动。连接任何数据源,轻松可视化、制作仪表板并共享您的数据。

Python
数据可视化
Spark
28.5 MB
2025-07-01
None logo

yeasy/docker_practice

25.5k
5.8k
9

学习并理解 Docker 与容器技术,进行实际的 DevOps 实践!

Go
Spark
Docker
Kubernetes
11.6 MB
2024-12-26
None logo

mlflow/mlflow

21.1k
4.6k
1.9k

开源的机器学习生命周期管理平台

Python
Spark
817.5 MB
2025-07-04
None logo

plotly/plotly.py

17.4k
2.7k
684

适用于Python的交互式图形库 :sparkles:

Python
数据可视化
Spark
191.1 MB
2025-07-01
None logo

heibaiying/BigData-Notes

16.5k
4.3k
37

大数据入门指南 🌟

Java
Spark
Kafka
23.5 MB
2024-01-05
None logo

dream-num/Luckysheet

16.3k
2.5k
685

Luckysheet 是一个功能强大、配置简单且完全开源的在线表格工具,类似于 Excel。

JavaScript
Spark
27.4 MB
2025-04-15

统治世界所需的数据科学速查表列表

Spark
119.5 MB
2024-07-18

ChatGPT API 及多种大语言模型的图形界面。支持智能代理、基于文件的问答、GPT 微调以及联网搜索查询,所有功能均配备简洁的用户界面。

Python
Spark
3.2 MB
2025-03-13

Flink 学习博客:http://www.54tianzhisheng.cn/,包含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涵盖 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等相关学习案例,同时分享 Flink 落地应用的大型项目案例(如 PVUV、日志存储、百亿数据实时去重、监控告警)。欢迎关注我的专栏《大数据实时计算引擎 Flink 实战与性能优化》

Java
Spark
Kafka
42.6 MB
2025-03-12
None logo

horovod/horovod

14.5k
2.3k
400

适用于TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式训练框架。

Python
PyTorch
TensorFlow
Spark
6.9 MB
2025-07-02

【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!

Spark
Kafka
Git
129.9 MB
2023-10-28

使用JVM部署和训练深度学习模型的工具套件。主要特性包括支持从Keras、TensorFlow、ONNX/PyTorch导入模型,一个用于运行数学计算的模块化轻量级C++库,以及基于该C++核心库的Java数学库。此外还包含SameDiff:一个类似PyTorch/TensorFlow的用于运行深度学习任务的自动微分库。

Java
Spark
745.7 MB
2025-07-04
None logo

apache/doris

13.9k
3.5k
3.3k

Apache Doris 是一个易于使用、高性能且统一的分析型数据库。

Java
Spark
1067.1 MB
2025-07-04
None logo

howdyai/botkit

11.6k
2.3k
46

Botkit 是一个用于构建聊天机器人、应用程序和主要消息平台的自定义集成的开源开发人员工具。

TypeScript
Spark
11.8 MB
2024-07-01

专注大数据学习面试,大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...

Spark
Kafka
67.9 MB
2023-08-07
None logo

mage-ai/mage-ai

8.4k
856
524

🧙 构建、运行和管理用于集成和转换数据的数据管道。

Python
Spark
239.4 MB
2025-07-03
None logo

delta-io/delta

8.1k
1.9k
1.0k

一个开源存储框架,支持使用包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎和 API 构建湖仓一体架构。

Scala
Spark
39.7 MB
2025-07-04
None logo

tobymao/sqlglot

7.9k
895
1

Python SQL 解析器和转换器

Python
Spark
546.3 MB
2025-07-04
None logo

Laravel-Lang/lang

7.7k
3.0k
0

Laravel框架、Laravel Jetstream、Laravel Fortify、Laravel Breeze、Laravel Cashier、Laravel Nova和Laravel UI的127种语言列表。

PHP
Spark
Laravel
66.8 MB
2025-07-03
None logo

h2oai/h2o-3

7.2k
2.0k
2.9k

H2O 是一个开源、分布式、快速且可扩展的机器学习平台:深度学习、梯度提升(GBM)与 XGBoost、随机森林、广义线性建模(带有弹性网络的 GLM)、K 均值、PCA、广义加性模型(GAM)、RuleFit、支持向量机(SVM)、堆叠集成、自动机器学习(AutoML)等。

Jupyter Notebook
Spark
611.4 MB
2025-07-03
None logo

Alluxio/alluxio

7.0k
2.9k
1.0k

Alluxio,用于云中分析和机器学习的数据编排

Java
TensorFlow
Spark
200.8 MB
2025-04-30
None logo

Angel-ML/angel

6.8k
1.6k
130

一个灵活且强大的参数服务器,用于大规模机器学习

Java
Spark
91.3 MB
2025-07-02
None logo

apache/zeppelin

6.5k
2.8k
196

基于Web的笔记本,支持数据驱动、交互式数据分析和协作文档,兼容SQL、Scala等语言。

Java
Spark
105.8 MB
2025-07-03
None logo

donnemartin/dev-setup

6.2k
1.2k
36

macOS开发环境设置:易于理解的说明,带有自动化设置脚本,适用于开发工具,如Vim、Sublime Text、Bash、iTerm、Python数据分析、Spark、Hadoop MapReduce、AWS、Heroku、JavaScript网页开发、Android开发、常用数据存储和基于开发的OS X默认设置。

Python
Spark
Git
424 KB
2023-02-28
None logo

ibis-project/ibis

5.9k
650
345

可移植的Python数据框库

Python
Pandas
Spark
181.6 MB
2025-07-04
None logo

apache/hudi

5.9k
2.4k
1.1k

大数据上的插入更新、删除和增量处理。

Java
Spark
1925.6 MB
2025-07-03