探索 Spark 项目
筛选并发现收录的、配有高质量中文文档或教程的 GitHub 项目。
整合数据工程学习资源,涵盖从入门到进阶的路线图、书籍、社区、工具及实战项目,助力快速掌握核心技能。
免费9周数据工程课程,涵盖从容器化到流处理的完整数据管道构建。提供动手实践、社区支持与项目实战。
包含深度学习、scikit-learn、大数据、数据可视化及Python基础等主题的Jupyter Notebook集合,涵盖TensorFlow、Theano、Keras、Spark、Hadoop等工具。
开源数据可视化与仪表板工具。连接任意数据源,通过浏览器轻松查询、可视化、分享数据。支持 SQL/NoSQL,提供拖拽式图表、自动刷新、警报及 REST API。
掌握 Docker 容器技术,从真实案例中学习最佳实践技巧!涵盖从入门到进阶的完整知识体系,包括基础概念、数据管理、网络配置、编排工具及实战扩展。提供在线阅读、Docker 镜像本地运行等多种学习方式。
交互式 Python 绘图库,基于 plotly.js,支持 30+ 图表类型。可导出为静态图像,集成于 Jupyter 和 Dash 应用。
大数据入门指南,涵盖 Hadoop、Spark、Flink 等核心组件,提供安装、开发与实战教程,助力初学者快速掌握大数据技术栈。
开源在线电子表格,类似 Excel,功能强大且配置简单。支持格式化、公式、数据透视表、图表、协同编辑等。已升级为 Univer,推荐用于生产环境。
为 ChatGPT 等多种 LLM 提供轻量级 Web 图形界面,支持 Agent、文件问答、GPT 微调及联网搜索。拥有精致 UI,支持本地部署与多模型。
基于 Flink 1.14.2 的学习项目,涵盖入门、原理、实战、性能调优及源码解析。包含 Connector、Metrics、DataStream/Table API 等案例,以及 PVUV、日志存储、实时去重等大型项目实践。提供专栏《大数据实时计算引擎 Flink 实战与性能优化》。
分布式深度学习训练框架,支持 TensorFlow、Keras、PyTorch 和 Apache MXNet。基于 MPI 模型,易于扩展,性能高效,可实现单 GPU 到多 GPU、多节点的无缝迁移。
基于 JVM 的深度学习工具套件,支持 Keras、TensorFlow 和 ONNX/PyTorch 模型导入。包含模块化 C++ 数学库、Java 数学库及 SameDiff 自动微分框架。支持多语言(Scala、Kotlin 等)及跨平台(Windows、Linux、macOS)。
开源开发者工具,用于为各大消息平台构建聊天机器人、应用和自定义集成。核心库支持多平台适配器,是 Microsoft Bot Framework 的一部分。
专注大数据学习面试,涵盖Flink/Spark/Hadoop/Hbase/Hive等框架,提供系统性学习路径、实战进阶与面试指南,助力大数据成神之路。
Python SQL 解析器与转译器,支持 31 种方言,无依赖,高性能。可格式化、转换 SQL,分析查询,构建 AST,并检测语法错误。
构建、运行和管理数据管道,支持 Python、SQL、R 模块化开发。提供可视化笔记本式界面,支持本地部署、Docker 快速启动及 dbt 集成。支持调度、调试和多种数据源连接。
开源存储框架,支持 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎构建数据湖仓架构,提供 Scala、Java、Rust、Ruby 和 Python API。
为 Laravel 框架及其组件提供 128 种语言的本地化文件,支持 Jetstream、Fortify、Breeze、Cashier、Nova 和 UI。
开源分布式机器学习平台,支持深度学习、GBM、XGBoost、随机森林、GLM、K-Means、PCA、GAM、SVM、Stacked Ensembles、AutoML 等算法。提供 R、Python、Scala、Java、JSON 和 Flow 接口,兼容 Hadoop 和 Spark,模型可导出为 POJO/MOJO 用于生产环境。
基于参数服务器理念的高性能分布式机器学习与图计算平台,由腾讯与北京大学联合开发。支持大规模模型训练,兼容 YARN 与 Spark,提供灵活的模型分区与同步机制。
基于 Web 的笔记本,支持 SQL、Scala 等语言,实现数据驱动的交互式分析与协作文档。核心功能包括 Web 笔记本编辑器和内置 Apache Spark 支持。
便携式 Python dataframe 库,支持超过 20 个后端。提供快速本地处理(默认 DuckDB)、惰性表达式和交互式探索模式。可混合 Python 与 SQL 代码,通过单行代码切换本地与远程部署。
为 macOS 提供自动化开发环境配置脚本,涵盖 Vim、Sublime Text、Python 数据分析、Spark、Hadoop、AWS、Heroku、JavaScript 及 Android 开发等工具,支持自定义安装。