Spark资源
探索与 Spark 相关的精选开源项目、速读教程和最新工作机会
相关开源项目
apache/spark
Apache Spark - 用于大规模数据处理的统一分析引擎
DataExpert-io/data-engineer-handbook
这是一个包含所有你想了解的数据工程相关学习资源的仓库。
DataTalksClub/data-engineering-zoomcamp
数据工程Zoom训练营是一个为期九周的免费课程,涵盖数据工程的基础知识。
donnemartin/data-science-ipython-notebooks
数据科学Python笔记本:深度学习(TensorFlow、Theano、Caffe、Keras)、scikit-learn、Kaggle、大数据(Spark、Hadoop MapReduce、HDFS)、matplotlib、pandas、NumPy、SciPy、Python基础、AWS以及各种命令行工具。
getredash/redash
让您的公司数据驱动。连接任何数据源,轻松可视化、制作仪表板并共享您的数据。
yeasy/docker_practice
学习并理解 Docker 与容器技术,进行实际的 DevOps 实践!
mlflow/mlflow
开源的机器学习生命周期管理平台
plotly/plotly.py
适用于Python的交互式图形库 :sparkles:
heibaiying/BigData-Notes
大数据入门指南 🌟
dream-num/Luckysheet
Luckysheet 是一个功能强大、配置简单且完全开源的在线表格工具,类似于 Excel。
FavioVazquez/ds-cheatsheets
统治世界所需的数据科学速查表列表
GaiZhenbiao/ChuanhuChatGPT
ChatGPT API 及多种大语言模型的图形界面。支持智能代理、基于文件的问答、GPT 微调以及联网搜索查询,所有功能均配备简洁的用户界面。
zhisheng17/flink-learning
Flink 学习博客:http://www.54tianzhisheng.cn/,包含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涵盖 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等相关学习案例,同时分享 Flink 落地应用的大型项目案例(如 PVUV、日志存储、百亿数据实时去重、监控告警)。欢迎关注我的专栏《大数据实时计算引擎 Flink 实战与性能优化》
horovod/horovod
适用于TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式训练框架。
aalansehaiyang/technology-talk
【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!
deeplearning4j/deeplearning4j
使用JVM部署和训练深度学习模型的工具套件。主要特性包括支持从Keras、TensorFlow、ONNX/PyTorch导入模型,一个用于运行数学计算的模块化轻量级C++库,以及基于该C++核心库的Java数学库。此外还包含SameDiff:一个类似PyTorch/TensorFlow的用于运行深度学习任务的自动微分库。
apache/doris
Apache Doris 是一个易于使用、高性能且统一的分析型数据库。
howdyai/botkit
Botkit 是一个用于构建聊天机器人、应用程序和主要消息平台的自定义集成的开源开发人员工具。
wangzhiwubigdata/God-Of-BigData
专注大数据学习面试,大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...
mage-ai/mage-ai
🧙 构建、运行和管理用于集成和转换数据的数据管道。
delta-io/delta
一个开源存储框架,支持使用包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎和 API 构建湖仓一体架构。
tobymao/sqlglot
Python SQL 解析器和转换器
Laravel-Lang/lang
Laravel框架、Laravel Jetstream、Laravel Fortify、Laravel Breeze、Laravel Cashier、Laravel Nova和Laravel UI的127种语言列表。
h2oai/h2o-3
H2O 是一个开源、分布式、快速且可扩展的机器学习平台:深度学习、梯度提升(GBM)与 XGBoost、随机森林、广义线性建模(带有弹性网络的 GLM)、K 均值、PCA、广义加性模型(GAM)、RuleFit、支持向量机(SVM)、堆叠集成、自动机器学习(AutoML)等。
Alluxio/alluxio
Alluxio,用于云中分析和机器学习的数据编排
Angel-ML/angel
一个灵活且强大的参数服务器,用于大规模机器学习
apache/zeppelin
基于Web的笔记本,支持数据驱动、交互式数据分析和协作文档,兼容SQL、Scala等语言。
donnemartin/dev-setup
macOS开发环境设置:易于理解的说明,带有自动化设置脚本,适用于开发工具,如Vim、Sublime Text、Bash、iTerm、Python数据分析、Spark、Hadoop MapReduce、AWS、Heroku、JavaScript网页开发、Android开发、常用数据存储和基于开发的OS X默认设置。
ibis-project/ibis
可移植的Python数据框库
apache/hudi
大数据上的插入更新、删除和增量处理。