PyTorch资源
探索与 PyTorch 相关的精选开源项目、速读教程和最新工作机会
相关开源项目
automatic1111/stable-diffusion-webui
基于Gradio的Stable Diffusion WebUI,支持txt2img、img2img、修复、放大、图生图、负面提示、自定义脚本、模型融合及社区扩展,提供完整图像生成与编辑功能。
huggingface/transformers
为文本、视觉、音频及多模态模型提供最先进的预训练模型,支持推理与训练,统一模型定义,兼容主流训练框架与推理引擎。
comfy-org/comfyui
最强大的模块化视觉AI引擎与应用,基于节点/流程图界面,支持Windows、Linux、macOS。无需编码即可设计和执行高级Stable Diffusion工作流,兼容多种图像、视频模型。
rasbt/llms-from-scratch
从零开始用PyTorch实现类ChatGPT的大语言模型,包含预训练和微调代码。与同名书籍配套,提供完整Jupyter Notebook教程。
vllm-project/vllm
高性能、内存高效的LLM推理与服务引擎。支持PagedAttention、连续批处理、量化及多种硬件,提供OpenAI兼容API。易于集成HuggingFace模型,适用于高吞吐量场景。
labmlai/annotated_deep_learning_paper_implementations
提供60+深度学习论文的PyTorch实现与并排注释,涵盖Transformer、优化器、GAN、强化学习等,帮助理解算法。
keras-team/keras
多后端深度学习框架,支持JAX、TensorFlow、PyTorch和OpenVINO。提供高级API,加速模型开发,性能领先,支持从笔记本到数据中心的大规模训练。
corentinj/real-time-voice-cloning
基于Python的实时语音克隆工具,5秒音频即可克隆声音,支持任意文本实时合成语音。集成SV2TTS框架,包含编码器、合成器和声码器,支持GPU加速。
ultralytics/yolov5
基于 PyTorch 的实时目标检测框架,支持 ONNX、CoreML、TFLite 部署,速度快、精度高,适用于多种视觉 AI 任务。
ultralytics/ultralytics
基于Python的高性能YOLO系列模型库,支持目标检测、跟踪、分割、分类与姿态估计。提供快速、准确、易用的SOTA模型,持续更新优化。
gokumohandas/made-with-ml
学习设计、开发、部署和迭代生产级机器学习应用。涵盖从实验到生产的全流程,结合软件工程最佳实践,提供可扩展的MLOps解决方案。
coqui-ai/tts
一个用于文本到语音的深度学习工具包,支持1100多种语言的预训练模型,提供训练和微调工具,已在研究和生产中得到验证。
deepspeedai/deepspeed
深度学习优化库,简化分布式训练与推理,提升效率与规模。支持ZeRO、3D并行等创新技术,已用于训练MT-530B、BLOOM等超大规模模型。
ray-project/ray
统一的AI计算引擎,包含核心分布式运行时与AI库,支持从笔记本到集群的无缝扩展,适用于Python应用与机器学习工作负载。
tencentarc/gfpgan
基于预训练人脸GAN实现真实世界人脸修复的实用算法。提供多种模型版本,支持CPU运行及非人脸区域增强。
babysor/mockingbird
5秒克隆声音,实时生成任意语音。基于Python与PyTorch,支持多语言数据集,兼容Windows/Linux/Mac,提供Web服务接口。
roboflow/supervision
提供可复用的计算机视觉工具,支持多种模型和数据集操作,包含丰富的可视化标注器,适用于Python 3.9+环境。
huggingface/pytorch-image-models
PyTorch图像模型集合,提供训练、评估、推理脚本及预训练权重,涵盖ResNet、ViT、EfficientNet等主流架构。
xinntao/real-esrgan
基于纯合成数据训练的通用图像/视频修复实用算法,支持动漫视频与插图超分,提供多种预训练模型与便携执行文件。
huggingface/diffusers
基于 PyTorch 的先进扩散模型库,支持图像、视频和音频生成。提供预训练管道、可互换调度器和模块化模型,便于快速推理与自定义训练。
lutzroeder/netron
可视化神经网络、深度学习和机器学习模型,支持ONNX、TensorFlow、PyTorch等多种格式,提供桌面和浏览器版本。
open-mmlab/mmdetection
基于PyTorch的开源目标检测工具箱,支持目标检测、实例分割、全景分割等多种任务,模块化设计便于扩展。
yunjey/pytorch-tutorial
为深度学习研究者提供PyTorch教程,包含基础、中级、高级模型实现,代码简洁,支持快速上手。
facebookresearch/fairseq
Facebook AI Research 开发的 Python 序列建模工具包,支持翻译、摘要、语言建模等任务,提供多种神经网络模型实现。
lightning-ai/pytorch-lightning
基于PyTorch的深度学习框架,无需修改代码即可在1到10,000+ GPU上预训练和微调任意规模的AI模型。提供LitServe用于构建纯Python推理服务器。
jaidedai/easyocr
支持80+语言的即用型OCR库,涵盖拉丁、中文、阿拉伯文等主流书写系统。Python实现,集成Hugging Face Spaces演示,提供命令行工具与自定义模型训练支持。
d2l-ai/d2l-en
开源交互式深度学习书籍,整合多框架代码、数学与讨论。被全球 500 所大学采用,包括斯坦福、MIT、哈佛和剑桥。提供可运行代码,支持快速学习与实践。
svc-develop-team/so-vits-svc
基于 SoftVC VITS 的开源歌声转换项目,支持将任意声音转换为目标歌手音色。提供可视化 f0 编辑器与混音时间线,支持 ONNX 模型。
deepinsight/insightface
顶尖的 2D 和 3D 人脸分析项目,提供人脸检测、识别、交换及 3D 重建等核心功能。基于 Python 开发,拥有超过 2.7 万星标。
fastai/fastai
基于 PyTorch 的深度学习库,提供高层组件快速实现 SOTA 结果,支持图像分类、分割、文本情感分析、推荐系统等。包含 GPU 优化视觉库、新型调度系统、双向回调机制及数据块 API,兼具易用性与可扩展性。