探索 Spark 项目

筛选并发现收录的、配有高质量中文文档或教程的 GitHub 项目。

找到 32 个项目 | 数据更新于:2026-03-07 16:32
Spark logo
42.9k
📝 Scala

统一的大规模数据分析引擎,提供 Scala、Java、Python 高级 API,支持 SQL、机器学习、图处理和流处理等丰富工具。

Spark
📦 527.8 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Data Engineer Handbook logo
40.4k
📝 Jupyter Notebook

整合数据工程学习资源,涵盖从入门到进阶的路线图、书籍、社区、工具及实战项目,助力快速掌握核心技能。

Spark
Awesome
📦 60.9 MB
🕐 2026-02-27
已收藏!可在"我的账户"中查看
Data Engineering Zoomcamp logo
38.9k
📝 Jupyter Notebook

免费9周数据工程课程,涵盖从容器化到流处理的完整数据管道构建。提供动手实践、社区支持与项目实战。

Spark
Kafka
Docker
📦 9.9 MB
🕐 2026-03-06
已收藏!可在"我的账户"中查看
Data Science Ipython Notebooks logo
28.9k
📝 Python

包含深度学习、scikit-learn、大数据、数据可视化及Python基础等主题的Jupyter Notebook集合,涵盖TensorFlow、Theano、Keras、Spark、Hadoop等工具。

TensorFlow
Pandas
Spark
📦 47.9 MB
🕐 2024-03-20
已收藏!可在"我的账户"中查看
Redash logo
28.3k
📝 Python

开源数据可视化与仪表板工具。连接任意数据源,通过浏览器轻松查询、可视化、分享数据。支持 SQL/NoSQL,提供拖拽式图表、自动刷新、警报及 REST API。

数据可视化
Spark
📦 28.7 MB
🕐 2026-03-02
已收藏!可在"我的账户"中查看
Docker Practice logo
25.9k
📝 Go

掌握 Docker 容器技术,从真实案例中学习最佳实践技巧!涵盖从入门到进阶的完整知识体系,包括基础概念、数据管理、网络配置、编排工具及实战扩展。提供在线阅读、Docker 镜像本地运行等多种学习方式。

Spark
Docker
Kubernetes
📦 13.5 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Mlflow logo
24.6k
📝 Python

开源 AI 开发者平台,提供端到端追踪、可观测性与评估功能,支持 LLM、智能体、深度学习及传统机器学习,助力构建可靠的 AI 应用。

大语言模型
Spark
📦 1306.5 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Plotly logo
18.3k
📝 Python

交互式 Python 绘图库,基于 plotly.js,支持 30+ 图表类型。可导出为静态图像,集成于 Jupyter 和 Dash 应用。

数据可视化
Spark
📦 382.7 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Bigdata Notes logo
16.9k
📝 Java

大数据入门指南,涵盖 Hadoop、Spark、Flink 等核心组件,提供安装、开发与实战教程,助力初学者快速掌握大数据技术栈。

Spark
Kafka
📦 23.5 MB
🕐 2024-01-05
已收藏!可在"我的账户"中查看
Luckysheet logo
16.6k
📝 JavaScript

开源在线电子表格,类似 Excel,功能强大且配置简单。支持格式化、公式、数据透视表、图表、协同编辑等。已升级为 Univer,推荐用于生产环境。

Pandas
Spark
📦 27.5 MB
🕐 2025-08-19
已收藏!可在"我的账户"中查看
Ds Cheatsheets logo
16.2k

汇集数据科学速查表,覆盖 Python、R、数学、大数据及机器学习等领域,助力高效学习与工作。

Spark
📦 119.5 MB
🕐 2024-07-18
已收藏!可在"我的账户"中查看
Chuanhuchatgpt logo
15.4k
📝 Python

为 ChatGPT 等多种 LLM 提供轻量级 Web 图形界面,支持 Agent、文件问答、GPT 微调及联网搜索。拥有精致 UI,支持本地部署与多模型。

Spark
📦 3.2 MB
🕐 2026-02-28
已收藏!可在"我的账户"中查看
Doris logo
15.1k
📝 Java

基于 MPP 架构的易用、高性能实时分析数据库。亚秒级响应海量数据查询,支持高并发点查与复杂分析。适用于报表分析、数据湖加速等场景。

Spark
📦 1192.6 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Flink Learning logo
15.1k
📝 Java

基于 Flink 1.14.2 的学习项目,涵盖入门、原理、实战、性能调优及源码解析。包含 Connector、Metrics、DataStream/Table API 等案例,以及 PVUV、日志存储、实时去重等大型项目实践。提供专栏《大数据实时计算引擎 Flink 实战与性能优化》。

Spark
Kafka
📦 42.7 MB
🕐 2026-03-06
已收藏!可在"我的账户"中查看
Technology Talk logo
14.7k

专为 Java 程序员打造的面试指南,涵盖大厂面试题、系统架构、中间件及职场技巧,助力技术提升。

Spark
Kafka
Git
📦 129.3 MB
🕐 2025-07-21
已收藏!可在"我的账户"中查看
Horovod logo
14.7k
📝 Python

分布式深度学习训练框架,支持 TensorFlow、Keras、PyTorch 和 Apache MXNet。基于 MPI 模型,易于扩展,性能高效,可实现单 GPU 到多 GPU、多节点的无缝迁移。

PyTorch
TensorFlow
Spark
📦 6.9 MB
🕐 2025-12-02
已收藏!可在"我的账户"中查看
Deeplearning4J logo
14.2k
📝 Java

基于 JVM 的深度学习工具套件,支持 Keras、TensorFlow 和 ONNX/PyTorch 模型导入。包含模块化 C++ 数学库、Java 数学库及 SameDiff 自动微分框架。支持多语言(Scala、Kotlin 等)及跨平台(Windows、Linux、macOS)。

Spark
📦 757.9 MB
🕐 2026-03-05
已收藏!可在"我的账户"中查看
Botkit logo
11.6k
📝 TypeScript

开源开发者工具,用于为各大消息平台构建聊天机器人、应用和自定义集成。核心库支持多平台适配器,是 Microsoft Bot Framework 的一部分。

Spark
📦 11.8 MB
🕐 2024-07-01
已收藏!可在"我的账户"中查看
God Of Bigdata logo
10.4k

专注大数据学习面试,涵盖Flink/Spark/Hadoop/Hbase/Hive等框架,提供系统性学习路径、实战进阶与面试指南,助力大数据成神之路。

Spark
Kafka
📦 67.9 MB
🕐 2023-08-07
已收藏!可在"我的账户"中查看
Sqlglot logo
9.0k
📝 Python

Python SQL 解析器与转译器,支持 31 种方言,无依赖,高性能。可格式化、转换 SQL,分析查询,构建 AST,并检测语法错误。

Spark
📦 53.2 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Mage Ai logo
8.7k
📝 Python

构建、运行和管理数据管道,支持 Python、SQL、R 模块化开发。提供可视化笔记本式界面,支持本地部署、Docker 快速启动及 dbt 集成。支持调度、调试和多种数据源连接。

Spark
📦 239.7 MB
🕐 2026-03-05
已收藏!可在"我的账户"中查看
Delta logo
8.6k
📝 Scala

开源存储框架,支持 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎构建数据湖仓架构,提供 Scala、Java、Rust、Ruby 和 Python API。

Spark
📦 46.9 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Lang logo
7.8k
📝 PHP

为 Laravel 框架及其组件提供 128 种语言的本地化文件,支持 Jetstream、Fortify、Breeze、Cashier、Nova 和 UI。

Spark
Laravel
📦 71.7 MB
🕐 2026-03-03
已收藏!可在"我的账户"中查看
H2O 3 logo
7.5k
📝 Jupyter Notebook

开源分布式机器学习平台,支持深度学习、GBM、XGBoost、随机森林、GLM、K-Means、PCA、GAM、SVM、Stacked Ensembles、AutoML 等算法。提供 R、Python、Scala、Java、JSON 和 Flow 接口,兼容 Hadoop 和 Spark,模型可导出为 POJO/MOJO 用于生产环境。

Spark
📦 611.6 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Alluxio logo
7.2k
📝 Java

分布式数据编排平台,为云上分析和机器学习提供缓存加速。支持 Presto、Spark 等引擎,管理亿级文件,提供通用接口连接多种存储系统。

TensorFlow
Spark
📦 200.8 MB
🕐 2025-04-30
已收藏!可在"我的账户"中查看
Angel logo
6.8k
📝 Java

基于参数服务器理念的高性能分布式机器学习与图计算平台,由腾讯与北京大学联合开发。支持大规模模型训练,兼容 YARN 与 Spark,提供灵活的模型分区与同步机制。

Spark
📦 91.4 MB
🕐 2025-10-13
已收藏!可在"我的账户"中查看
Zeppelin logo
6.6k
📝 Java

基于 Web 的笔记本,支持 SQL、Scala 等语言,实现数据驱动的交互式分析与协作文档。核心功能包括 Web 笔记本编辑器和内置 Apache Spark 支持。

Spark
📦 113.8 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看
Ibis logo
6.4k
📝 Python

便携式 Python dataframe 库,支持超过 20 个后端。提供快速本地处理(默认 DuckDB)、惰性表达式和交互式探索模式。可混合 Python 与 SQL 代码,通过单行代码切换本地与远程部署。

Pandas
Spark
📦 189.0 MB
🕐 2026-03-06
已收藏!可在"我的账户"中查看
Dev Setup logo
6.3k
📝 Python

为 macOS 提供自动化开发环境配置脚本,涵盖 Vim、Sublime Text、Python 数据分析、Spark、Hadoop、AWS、Heroku、JavaScript 及 Android 开发等工具,支持自定义安装。

Spark
Git
📦 424 KB
🕐 2023-02-28
已收藏!可在"我的账户"中查看
Hudi logo
6.1k
📝 Java

基于高性能开放表格式的数据湖仓平台,支持增删改、增量处理与多云环境管理。提供快照、增量、变更数据捕获等查询,以及原子提交、乐观并发控制等写入能力。

Spark
📦 2593.5 MB
🕐 2026-03-07
已收藏!可在"我的账户"中查看