Spark资源
探索与 Spark 相关的精选开源项目、速读教程和最新工作机会
相关开源项目
apache/spark
统一的大规模数据分析引擎,提供 Scala、Java、Python 高级 API,支持 SQL、机器学习、图处理和流处理等丰富工具。
dataexpert-io/data-engineer-handbook
整合数据工程学习资源,涵盖从入门到进阶的路线图、书籍、社区、工具及实战项目,助力快速掌握核心技能。
datatalksclub/data-engineering-zoomcamp
免费9周数据工程课程,涵盖从容器化到流处理的完整数据管道构建。提供动手实践、社区支持与项目实战。
donnemartin/data-science-ipython-notebooks
包含深度学习、scikit-learn、大数据、数据可视化及Python基础等主题的Jupyter Notebook集合,涵盖TensorFlow、Theano、Keras、Spark、Hadoop等工具。
getredash/redash
开源数据可视化与仪表板工具。连接任意数据源,通过浏览器轻松查询、可视化、分享数据。支持 SQL/NoSQL,提供拖拽式图表、自动刷新、警报及 REST API。
yeasy/docker_practice
掌握 Docker 容器技术,从真实案例中学习最佳实践技巧!涵盖从入门到进阶的完整知识体系,包括基础概念、数据管理、网络配置、编排工具及实战扩展。提供在线阅读、Docker 镜像本地运行等多种学习方式。
mlflow/mlflow
开源 AI 开发者平台,提供端到端追踪、可观测性与评估功能,支持 LLM、智能体、深度学习及传统机器学习,助力构建可靠的 AI 应用。
plotly/plotly.py
交互式 Python 绘图库,基于 plotly.js,支持 30+ 图表类型。可导出为静态图像,集成于 Jupyter 和 Dash 应用。
heibaiying/bigdata-notes
大数据入门指南,涵盖 Hadoop、Spark、Flink 等核心组件,提供安装、开发与实战教程,助力初学者快速掌握大数据技术栈。
dream-num/luckysheet
开源在线电子表格,类似 Excel,功能强大且配置简单。支持格式化、公式、数据透视表、图表、协同编辑等。已升级为 Univer,推荐用于生产环境。
faviovazquez/ds-cheatsheets
汇集数据科学速查表,覆盖 Python、R、数学、大数据及机器学习等领域,助力高效学习与工作。
gaizhenbiao/chuanhuchatgpt
为 ChatGPT 等多种 LLM 提供轻量级 Web 图形界面,支持 Agent、文件问答、GPT 微调及联网搜索。拥有精致 UI,支持本地部署与多模型。
apache/doris
基于 MPP 架构的易用、高性能实时分析数据库。亚秒级响应海量数据查询,支持高并发点查与复杂分析。适用于报表分析、数据湖加速等场景。
zhisheng17/flink-learning
基于 Flink 1.14.2 的学习项目,涵盖入门、原理、实战、性能调优及源码解析。包含 Connector、Metrics、DataStream/Table API 等案例,以及 PVUV、日志存储、实时去重等大型项目实践。提供专栏《大数据实时计算引擎 Flink 实战与性能优化》。
aalansehaiyang/technology-talk
专为 Java 程序员打造的面试指南,涵盖大厂面试题、系统架构、中间件及职场技巧,助力技术提升。
horovod/horovod
分布式深度学习训练框架,支持 TensorFlow、Keras、PyTorch 和 Apache MXNet。基于 MPI 模型,易于扩展,性能高效,可实现单 GPU 到多 GPU、多节点的无缝迁移。
deeplearning4j/deeplearning4j
基于 JVM 的深度学习工具套件,支持 Keras、TensorFlow 和 ONNX/PyTorch 模型导入。包含模块化 C++ 数学库、Java 数学库及 SameDiff 自动微分框架。支持多语言(Scala、Kotlin 等)及跨平台(Windows、Linux、macOS)。
howdyai/botkit
开源开发者工具,用于为各大消息平台构建聊天机器人、应用和自定义集成。核心库支持多平台适配器,是 Microsoft Bot Framework 的一部分。
wangzhiwubigdata/god-of-bigdata
专注大数据学习面试,涵盖Flink/Spark/Hadoop/Hbase/Hive等框架,提供系统性学习路径、实战进阶与面试指南,助力大数据成神之路。
tobymao/sqlglot
Python SQL 解析器与转译器,支持 31 种方言,无依赖,高性能。可格式化、转换 SQL,分析查询,构建 AST,并检测语法错误。
mage-ai/mage-ai
构建、运行和管理数据管道,支持 Python、SQL、R 模块化开发。提供可视化笔记本式界面,支持本地部署、Docker 快速启动及 dbt 集成。支持调度、调试和多种数据源连接。
delta-io/delta
开源存储框架,支持 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎构建数据湖仓架构,提供 Scala、Java、Rust、Ruby 和 Python API。
laravel-lang/lang
为 Laravel 框架及其组件提供 128 种语言的本地化文件,支持 Jetstream、Fortify、Breeze、Cashier、Nova 和 UI。
h2oai/h2o-3
开源分布式机器学习平台,支持深度学习、GBM、XGBoost、随机森林、GLM、K-Means、PCA、GAM、SVM、Stacked Ensembles、AutoML 等算法。提供 R、Python、Scala、Java、JSON 和 Flow 接口,兼容 Hadoop 和 Spark,模型可导出为 POJO/MOJO 用于生产环境。
alluxio/alluxio
分布式数据编排平台,为云上分析和机器学习提供缓存加速。支持 Presto、Spark 等引擎,管理亿级文件,提供通用接口连接多种存储系统。
angel-ml/angel
基于参数服务器理念的高性能分布式机器学习与图计算平台,由腾讯与北京大学联合开发。支持大规模模型训练,兼容 YARN 与 Spark,提供灵活的模型分区与同步机制。
apache/zeppelin
基于 Web 的笔记本,支持 SQL、Scala 等语言,实现数据驱动的交互式分析与协作文档。核心功能包括 Web 笔记本编辑器和内置 Apache Spark 支持。
ibis-project/ibis
便携式 Python dataframe 库,支持超过 20 个后端。提供快速本地处理(默认 DuckDB)、惰性表达式和交互式探索模式。可混合 Python 与 SQL 代码,通过单行代码切换本地与远程部署。
donnemartin/dev-setup
为 macOS 提供自动化开发环境配置脚本,涵盖 Vim、Sublime Text、Python 数据分析、Spark、Hadoop、AWS、Heroku、JavaScript 及 Android 开发等工具,支持自定义安装。
apache/hudi
基于高性能开放表格式的数据湖仓平台,支持增删改、增量处理与多云环境管理。提供快照、增量、变更数据捕获等查询,以及原子提交、乐观并发控制等写入能力。