探索 PyTorch 项目
筛选并发现收录的、配有高质量中文文档或教程的 GitHub 项目。
基于 PyTorch 的高分辨率图像到图像翻译实现,支持 2048x1024 分辨率。使用条件 GAN 将语义标签图合成逼真图像,或从人脸标签生成肖像。提供交互式编辑功能。
纽约大学 2020 春季深度学习课程的 Jupyter Notebook 代码库。提供交互式实验环境,支持通过 Binder 在线运行,并配有配套网站包含视频与文本材料。
AI实战中文版,使用 PyTorch 实现机器学习算法与深度神经网络。无需本地环境,通过 Google Colab 在浏览器中运行。提供从基础到进阶的 Jupyter Notebook 教程,涵盖计算机视觉、自然语言处理等主题。
Google AI 2018 BERT 的 PyTorch 实现,支持掩码语言模型和下一句预测预训练。提供简单易用的命令行工具,便于构建词汇表和训练模型。
一门强化学习开放课程,注重实践与好奇心驱动。提供 Jupyter Notebook 教程,涵盖从基础到高级的 RL 算法,支持在线与本地学习。
基于 PyTorch 的 Informer 模型实现,专为长序列时间序列预测设计。核心为 ProbSparse 注意力机制,显著提升效率。获 AAAI 2021 最佳论文奖,支持 ETT、ECL 等数据集。
提供高度优化的 Transformer 编码器和解码器组件,支持 BERT、GPT 等模型,基于 CUDA 和 C++ 构建,提供 TensorFlow、PyTorch 和 Triton 后端 API。现已过渡至 TensorRT-LLM。
基于 PyTorch 的 CIFAR10 图像分类项目,提供多种模型实现,包括 VGG16、ResNet、RegNet 等,最高准确率达 95.47%。支持训练与恢复训练。
基于 PyTorch 的深度度量学习库,模块化、灵活且可扩展。提供损失函数、挖掘器等组件,支持自定义距离、归约器和正则化器。包含常见数据集下载模块,支持 Google Colab 示例。
基于 PyTorch 的开源 3D 目标检测工具箱,支持多/单模态检测器及室内/室外场景,集成 2D 检测,提供 300+ 模型。
秒级搭建与定制深度学习环境。提供乐高式模块化组件,自动解析依赖并生成最佳实践 Dockerfile。支持 GPU/CPU 加速,预构建镜像覆盖主流框架,兼容 Linux/Windows/OS X。
StyleTTS 2 通过风格扩散和对抗训练实现人类级语音合成。利用大语音模型作为判别器,无需参考语音即可生成自然语音。在单/多说话人数据集上均超越或匹配人类录音。
超轻量级无锚框目标检测模型,模型文件仅 980KB (INT8) / 1.8MB (FP16),在移动端 ARM CPU 上可达 97 FPS。支持 ncnn、MNN、OpenVINO 等多种后端,提供 Android 演示。
Pytorch🍊🍉 20天速成教程,面向有机器学习基础的读者。提供结构化学习路径,从建模流程到核心概念、API层次,再到广告推荐实战。代码范例简约即用,配有B站视频,降低学习难度。
一个兼容 scikit-learn 的神经网络库,封装了 PyTorch。提供与 sklearn Pipeline 和 GridSearchCV 的无缝集成,支持学习率调度、早停、检查点等高级功能。
ECCV 2022 多目标跟踪器,通过关联所有检测框实现高精度跟踪。支持 MOT17/MOT20 数据集,MOTA 达 80.3,FPS 超 29。提供 Python 实现、演示与 Docker 部署。
精选 GitHub 深度学习项目列表,按星标排序。涵盖 TensorFlow、PyTorch、Keras 等框架,以及 NLP、计算机视觉、强化学习等热门领域。
基于 MiniCPM-4 的无分词器 TTS 系统,支持上下文感知语音生成与零样本克隆。采用端到端扩散自回归架构,直接从文本生成连续语音表示,实现高表现力与自然度。支持高效流式合成,RTF 低至 0.15,适用于实时应用。
Aim 是一款易于使用且功能强大的开源实验追踪器,用于记录训练过程和 AI 元数据。提供美观的 UI 进行对比观察,并支持 API 进行程序化查询。
基于 PyTorch 和 fastai 的时序深度学习库,提供分类、回归、预测等 SOTA 模型,支持多数据集与高效训练。
专为工业应用设计的单阶段目标检测框架,提供 N/T/S/M/L 多种尺寸模型,支持 CPU/移动端部署,具备高性能与量化优化。
跨框架深度学习模型管理工具,支持模型转换、可视化与诊断。可在 Caffe、Keras、MXNet、TensorFlow、CNTK、PyTorch、ONNX 和 CoreML 之间转换模型,并提供代码生成与部署指南。
基于 CLIP 的中文多模态模型,支持图文特征计算、跨模态检索与零样本分类。提供 API、训练及测试代码,适配 PyTorch 2.0,支持 ONNX/TensorRT 部署与 FlashAttention 加速。
提供预训练的文本转语音模型,支持多语言与多说话人,一键使用,CPU/GPU 高效运行。支持 SSML 标记,俄语自动重音与同形词处理。
基于 PyTorch 和 TorchText 的序列到序列模型教程,涵盖从基础到注意力机制的实现,以德语到英语翻译为例。
Facebook AI Research 的模块化视觉与语言多模态研究框架,基于 PyTorch,支持分布式训练,提供前沿模型实现,适用于快速启动研究项目。
Google Gemma 模型的官方 PyTorch 实现。提供 PyTorch 和 PyTorch/XLA 推理,支持 CPU、GPU 和 TPU。包含多种模型变体,如 Gemma 3、2 和 CodeGemma,可在 Kaggle 和 Hugging Face 下载。