探索 PyTorch 项目
筛选并发现收录的、配有高质量中文文档或教程的 GitHub 项目。
基于Gradio的Stable Diffusion WebUI,支持txt2img、img2img、修复、放大、图生图、负面提示、自定义脚本、模型融合及社区扩展,提供完整图像生成与编辑功能。
最强大的模块化视觉AI引擎与应用,基于节点/流程图界面,支持Windows、Linux、macOS。无需编码即可设计和执行高级Stable Diffusion工作流,兼容多种图像、视频模型。
从零开始用PyTorch实现类ChatGPT的大语言模型,包含预训练和微调代码。与同名书籍配套,提供完整Jupyter Notebook教程。
高性能、内存高效的LLM推理与服务引擎。支持PagedAttention、连续批处理、量化及多种硬件,提供OpenAI兼容API。易于集成HuggingFace模型,适用于高吞吐量场景。
提供60+深度学习论文的PyTorch实现与并排注释,涵盖Transformer、优化器、GAN、强化学习等,帮助理解算法。
多后端深度学习框架,支持JAX、TensorFlow、PyTorch和OpenVINO。提供高级API,加速模型开发,性能领先,支持从笔记本到数据中心的大规模训练。
基于Python的实时语音克隆工具,5秒音频即可克隆声音,支持任意文本实时合成语音。集成SV2TTS框架,包含编码器、合成器和声码器,支持GPU加速。
基于 PyTorch 的实时目标检测框架,支持 ONNX、CoreML、TFLite 部署,速度快、精度高,适用于多种视觉 AI 任务。
基于Python的高性能YOLO系列模型库,支持目标检测、跟踪、分割、分类与姿态估计。提供快速、准确、易用的SOTA模型,持续更新优化。
学习设计、开发、部署和迭代生产级机器学习应用。涵盖从实验到生产的全流程,结合软件工程最佳实践,提供可扩展的MLOps解决方案。
深度学习优化库,简化分布式训练与推理,提升效率与规模。支持ZeRO、3D并行等创新技术,已用于训练MT-530B、BLOOM等超大规模模型。
5秒克隆声音,实时生成任意语音。基于Python与PyTorch,支持多语言数据集,兼容Windows/Linux/Mac,提供Web服务接口。
PyTorch图像模型集合,提供训练、评估、推理脚本及预训练权重,涵盖ResNet、ViT、EfficientNet等主流架构。
基于 PyTorch 的先进扩散模型库,支持图像、视频和音频生成。提供预训练管道、可互换调度器和模块化模型,便于快速推理与自定义训练。
可视化神经网络、深度学习和机器学习模型,支持ONNX、TensorFlow、PyTorch等多种格式,提供桌面和浏览器版本。
Facebook AI Research 开发的 Python 序列建模工具包,支持翻译、摘要、语言建模等任务,提供多种神经网络模型实现。
基于PyTorch的深度学习框架,无需修改代码即可在1到10,000+ GPU上预训练和微调任意规模的AI模型。提供LitServe用于构建纯Python推理服务器。
支持80+语言的即用型OCR库,涵盖拉丁、中文、阿拉伯文等主流书写系统。Python实现,集成Hugging Face Spaces演示,提供命令行工具与自定义模型训练支持。
开源交互式深度学习书籍,整合多框架代码、数学与讨论。被全球 500 所大学采用,包括斯坦福、MIT、哈佛和剑桥。提供可运行代码,支持快速学习与实践。
基于 SoftVC VITS 的开源歌声转换项目,支持将任意声音转换为目标歌手音色。提供可视化 f0 编辑器与混音时间线,支持 ONNX 模型。
顶尖的 2D 和 3D 人脸分析项目,提供人脸检测、识别、交换及 3D 重建等核心功能。基于 Python 开发,拥有超过 2.7 万星标。
基于 PyTorch 的深度学习库,提供高层组件快速实现 SOTA 结果,支持图像分类、分割、文本情感分析、推荐系统等。包含 GPU 优化视觉库、新型调度系统、双向回调机制及数据块 API,兼具易用性与可扩展性。