探索 Spark 项目

筛选并发现收录的、配有高质量中文文档或教程的 GitHub 项目。

找到 31 个项目 | 数据更新于:2025-08-18 13:46
None logo

apache/spark

41.7k
28.7k
220

Apache Spark - 用于大规模数据处理的统一分析引擎

Scala
Spark
500.7 MB
2025-08-18
已收藏!可在“我的账户”中查看

这是一个包含所有你想了解的数据工程相关学习资源的仓库。

Jupyter Notebook
Spark
Awesome
54.8 MB
2025-08-13
已收藏!可在“我的账户”中查看

数据工程Zoom训练营是一个为期九周的免费课程,涵盖数据工程的基础知识。

Jupyter Notebook
Spark
Kafka
Docker
8.6 MB
2025-07-17
已收藏!可在“我的账户”中查看

数据科学Python笔记本:深度学习(TensorFlow、Theano、Caffe、Keras)、scikit-learn、Kaggle、大数据(Spark、Hadoop MapReduce、HDFS)、matplotlib、pandas、NumPy、SciPy、Python基础、AWS以及各种命令行工具。

Python
Pandas
Spark
TensorFlow
47.9 MB
2024-03-20
已收藏!可在“我的账户”中查看
None logo

getredash/redash

27.7k
4.5k
720

让您的公司数据驱动。连接任何数据源,轻松可视化、制作仪表板并共享您的数据。

Python
Spark
数据可视化
28.1 MB
2025-08-09
已收藏!可在“我的账户”中查看
None logo

yeasy/docker_practice

25.5k
5.8k
9

学习并理解 Docker 与容器技术,进行实际的 DevOps 实践!

Go
Spark
Docker
Kubernetes
11.6 MB
2024-12-26
已收藏!可在“我的账户”中查看
None logo

mlflow/mlflow

21.6k
4.8k
2.0k

开源的机器学习生命周期管理平台

Python
Spark
大语言模型
840.2 MB
2025-08-16
已收藏!可在“我的账户”中查看
None logo

plotly/plotly.py

17.6k
2.7k
720

适用于Python的交互式图形库 :sparkles:

Python
Spark
数据可视化
196.7 MB
2025-08-14
已收藏!可在“我的账户”中查看
None logo

heibaiying/BigData-Notes

16.6k
4.3k
37

大数据入门指南 🌟

Java
Spark
Kafka
23.5 MB
2024-01-05
已收藏!可在“我的账户”中查看
None logo

dream-num/Luckysheet

16.4k
2.5k
685

Luckysheet 是一个功能强大、配置简单且完全开源的在线表格工具,类似于 Excel。

JavaScript
Spark
27.5 MB
2025-08-16
已收藏!可在“我的账户”中查看

统治世界所需的数据科学速查表列表

Spark
119.5 MB
2024-07-18
已收藏!可在“我的账户”中查看

ChatGPT API 及多种大语言模型的图形界面。支持智能代理、基于文件的问答、GPT 微调以及联网搜索查询,所有功能均配备简洁的用户界面。

Python
Spark
3.1 MB
2025-08-15
已收藏!可在“我的账户”中查看

Flink 学习博客:http://www.54tianzhisheng.cn/,包含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涵盖 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等相关学习案例,同时分享 Flink 落地应用的大型项目案例(如 PVUV、日志存储、百亿数据实时去重、监控告警)。欢迎关注我的专栏《大数据实时计算引擎 Flink 实战与性能优化》

Java
Spark
Kafka
42.6 MB
2025-03-12
已收藏!可在“我的账户”中查看

【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!

Spring
Spark
Kafka
129.3 MB
2025-07-21
已收藏!可在“我的账户”中查看
None logo

horovod/horovod

14.6k
2.3k
403

适用于TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式训练框架。

Python
Spark
PyTorch
TensorFlow
6.8 MB
2025-08-01
已收藏!可在“我的账户”中查看
None logo

apache/doris

14.1k
3.5k
3.3k

Apache Doris 是一个易于使用、高性能且统一的分析型数据库。

Groovy
Spark
1103.2 MB
2025-08-17
已收藏!可在“我的账户”中查看

使用JVM部署和训练深度学习模型的工具套件。主要特性包括支持从Keras、TensorFlow、ONNX/PyTorch导入模型,一个用于运行数学计算的模块化轻量级C++库,以及基于该C++核心库的Java数学库。此外还包含SameDiff:一个类似PyTorch/TensorFlow的用于运行深度学习任务的自动微分库。

Java
Spark
746.5 MB
2025-08-12
已收藏!可在“我的账户”中查看
None logo

howdyai/botkit

11.6k
2.3k
46

Botkit 是一个用于构建聊天机器人、应用程序和主要消息平台的自定义集成的开源开发人员工具。

TypeScript
Spark
11.8 MB
2024-07-01
已收藏!可在“我的账户”中查看

专注大数据学习面试,大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...

Spark
Kafka
67.9 MB
2023-08-07
已收藏!可在“我的账户”中查看
None logo

mage-ai/mage-ai

8.4k
862
529

🧙 构建、运行和管理用于集成和转换数据的数据管道。

Python
Spark
237.7 MB
2025-08-16
已收藏!可在“我的账户”中查看
None logo

delta-io/delta

8.2k
1.9k
1.1k

一个开源存储框架,支持使用包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎和 API 构建湖仓一体架构。

Scala
Spark
41.0 MB
2025-08-16
已收藏!可在“我的账户”中查看
None logo

tobymao/sqlglot

8.1k
944
4

Python SQL 解析器和转换器

Python
Spark
567.9 MB
2025-08-15
已收藏!可在“我的账户”中查看
None logo

Laravel-Lang/lang

7.7k
3.0k
0

Laravel框架、Laravel Jetstream、Laravel Fortify、Laravel Breeze、Laravel Cashier、Laravel Nova和Laravel UI的127种语言列表。

PHP
Spark
Laravel
67.1 MB
2025-08-18
已收藏!可在“我的账户”中查看
None logo

h2oai/h2o-3

7.3k
2.0k
2.9k

H2O 是一个开源、分布式、快速且可扩展的机器学习平台:深度学习、梯度提升(GBM)与 XGBoost、随机森林、广义线性建模(带有弹性网络的 GLM)、K 均值、PCA、广义加性模型(GAM)、RuleFit、支持向量机(SVM)、堆叠集成、自动机器学习(AutoML)等。

Jupyter Notebook
Spark
610.9 MB
2025-08-15
已收藏!可在“我的账户”中查看
None logo

Alluxio/alluxio

7.1k
2.9k
1.0k

Alluxio,用于云中分析和机器学习的数据编排

Java
Spark
TensorFlow
200.8 MB
2025-04-30
已收藏!可在“我的账户”中查看
None logo

Angel-ML/angel

6.8k
1.6k
132

一个灵活且强大的参数服务器,用于大规模机器学习

Java
Spark
91.4 MB
2025-08-04
已收藏!可在“我的账户”中查看
None logo

apache/zeppelin

6.5k
2.8k
194

基于Web的笔记本,支持数据驱动、交互式数据分析和协作文档,兼容SQL、Scala等语言。

Java
Spark
106.2 MB
2025-08-17
已收藏!可在“我的账户”中查看
None logo

donnemartin/dev-setup

6.2k
1.2k
36

macOS开发环境设置:易于理解的说明,带有自动化设置脚本,适用于开发工具,如Vim、Sublime Text、Bash、iTerm、Python数据分析、Spark、Hadoop MapReduce、AWS、Heroku、JavaScript网页开发、Android开发、常用数据存储和基于开发的OS X默认设置。

Python
Spark
Git
424 KB
2023-02-28
已收藏!可在“我的账户”中查看
None logo

ibis-project/ibis

6.0k
662
356

可移植的Python数据框库

Python
Pandas
Spark
181.6 MB
2025-08-17
已收藏!可在“我的账户”中查看
None logo

apache/hudi

5.9k
2.4k
1.1k

大数据上的插入更新、删除和增量处理。

Java
Spark
2016.5 MB
2025-08-16
已收藏!可在“我的账户”中查看