探索 Python 项目
筛选并发现收录的、配有高质量中文文档或教程的 GitHub 项目。
基于 NAStool 重构的 NAS 媒体库自动化管理工具,采用前后端分离架构(FastApi + Vue3),聚焦核心需求,简化设置,界面美观易用。
StyleGAN2 是 NVIDIA 官方发布的 TensorFlow 实现,用于生成高质量图像。它通过改进生成器归一化、重新审视渐进式增长和正则化等方法,显著提升了图像质量,并提供了预训练模型和相关资源。
基于深度学习的图像风格迁移工具,支持将风格照片的纹理与内容照片融合,实现照片级真实感效果。采用闭式解法,速度快,兼容 Python 2.7 和 3.5。
先进的 OCR 模型,处理复杂表格、表单和手写内容,保留完整布局。支持 90+ 语言,输出 HTML/Markdown/JSON,提供本地和远程推理模式。
一套开发工具,用于简化基于大语言模型的 AI 应用从原型到生产部署的全流程。支持创建可执行的流程,连接 LLM、提示词、Python 代码等工具,并提供调试、评估和部署功能。
AI 开发平台,用于训练和微调模型,管理从实验到生产的全流程。支持 Python,提供实验跟踪、可视化和数据版本控制。集成主流 ML 框架,支持云端或私有部署。
入门级人脸、视频、文字检测与识别项目。支持人脸检测识别、轮廓标识、头像合成、数字化妆、性别与表情识别、视频对象提取、图片修复及自动上色。基于 Python、OpenCV、Dlib、Keras 等技术栈。
Python Serverless 微框架,用于 AWS。快速创建和部署 AWS Lambda 应用,提供命令行工具、装饰器 API 集成 API Gateway、S3、SNS、SQS 等服务,并自动生成 IAM 策略。
基于 LLVM 的 Python 即时编译器,专为 NumPy 数值计算优化。支持自动并行化、GPU 加速及 ufunc 生成,显著提升 Python 数值代码性能。
为 DevOps 工程师提供 30 天学习 AWS 的完整路径,包含项目、演示文稿、面试问题和实时示例。涵盖 EC2、VPC、S3、IAM、CloudFormation 等核心服务,通过动手实践项目构建安全可扩展的基础设施。
基于 CUDA 或 ROCm 的 GPU 加速计算库,兼容 NumPy/SciPy API,可直接替换现有代码。支持低级 CUDA 特性,如 RawKernels 和 Streams。
基于大语言模型的高效文本转语音系统,支持零样本语音克隆与中英双语合成。采用单流解耦语音令牌技术,无需额外生成模型,直接从 LLM 预测的代码重建音频,实现高效推理。支持性别、音高、语速等参数控制,可创建虚拟说话者。
高性能开源音乐生成模型,支持 Mac、AMD、Intel 和 CUDA 设备。生成速度快,A100 上每首歌不到 2 秒,RTX 3090 上不到 10 秒。支持 10 秒到 10 分钟的音频生成,以及 50 多种语言的歌词。提供 LoRA 训练、音频编辑和音轨分离等功能。
提供机器学习算法的简洁、干净实现示例,涵盖深度学习、线性模型、随机森林、SVM、K-Means、GMM、KNN、朴素贝叶斯、PCA、因子分解机、RBM、t-SNE、GBDT 和强化学习。代码基于 Python、NumPy、SciPy 和 Autograd,便于学习算法内部原理和从头实现。
基于 TensorFlow 的快速风格迁移工具,可在毫秒级将名画风格应用于任意照片或视频。支持多种艺术风格,如 Udnie、Wave 等。
强大的框架,用于构建实时语音 AI 代理。支持 STT、LLM、TTS 集成,内置任务调度与 WebRTC 客户端,支持电话集成与语义轮次检测。
支持免提语音交互、语音打断和 Live2D 虚拟形象的本地多平台 AI 伴侣。基于 Python,可离线运行,提供网页版和桌面客户端。
基于扩散模型,实现时间一致的人像动画生成。支持单图驱动,生成流畅的视频。提供预训练模型、推理代码和 Gradio 演示。
基于 Python 的 Linux/OSX/FreeBSD 资源监控工具,提供实时系统状态可视化,支持进程管理、主题切换和鼠标操作,界面美观且响应迅速。
基于视觉语言模型的开源多模态智能体,支持 GUI、游戏、代码和工具使用。通过强化学习实现高级推理,可在虚拟世界中执行多样化任务。提供桌面版与 Web 自动化方案。
Monocraft 是一款受 Minecraft 字体启发的等宽编程字体。它包含 1500 多个字形,优化了可读性与间距,支持编程连字和 Minecraft 附魔台语言。提供 Windows、Mac、Linux 安装方式,也支持网页使用。
基于 Gradio 的 AI 语音处理 WebUI,支持 YouTube 视频下载、Whisper 语音识别、Edge-TTS 与 kokoro 文本转语音,以及 E2/F5-TTS 和 CosyVoice 的零样本语音克隆。提供多语言翻译与人声分离功能,是创作者与开发者的全能工具。