探索 PyTorch 项目
筛选并发现收录的、配有高质量中文文档或教程的 GitHub 项目。
EmotiVoice 是一款强大的开源 TTS 引擎,支持中英双语及 2000 多种音色。核心功能是情感合成,可生成快乐、悲伤、愤怒等多种情绪的语音。提供易用的 Web 界面和脚本接口,支持批量生成。
基于 PyTorch 的神经网络教程,涵盖从基础到高级架构,包括 CNN、RNN、GAN 等,并提供中文视频与文本教学。
机器学习与深度学习资源库,包含 Python 实现的算法教程与项目。提供 PyTorch 和 TensorFlow 的详细指南,涵盖从基础到高级主题,如神经网络、目标检测和生成对抗网络。代码清晰,配有 YouTube 视频讲解,适合学习与问题解决。
企业级预训练语音活动检测器,基于 PyTorch,支持 8k/16k 采样率,模型轻量(约 2MB),处理速度快(单线程 <1ms),准确率高,支持 ONNX 加速,适用于多种语言和噪声环境。
PyTorch 高效网络实现,支持 B0-B8 预训练模型。提供 pip 安装和快速加载,包含 EfficientNetV2 支持。优化内存效率,支持特征提取和 ONNX 导出。
基于 PyTorch 的卷积神经网络可视化工具库,实现多种可视化技术,如梯度反向传播、类激活映射、深度梦境等。代码使用 PIL 替代 OpenCV,兼容旧版 PyTorch 0.4.1,提供详细注释和示例。
开源图像与视频复原工具箱,支持超分辨率、去噪、去模糊等。包含 EDSR、RCAN、SRGAN、ESRGAN、EDVR、BasicVSR、SwinIR 等多种先进模型。
告别枯燥,打造 Python 实用小例子。涵盖基本操作、函数模块用法,标签化分类,难度分级,适合快速学习与实践。
通过 k-bit 量化技术,为 PyTorch 提供可访问的大语言模型。包含 8-bit 优化器、LLM.int8() 推理和 QLoRA 4-bit 训练,显著降低内存消耗,同时保持 32-bit 性能。
为 PyTorch 等框架提供 TensorBoard 可视化支持。支持标量、图像、直方图、音频、文本、图、嵌入等多种数据类型。通过简单函数调用记录事件,兼容多种后端。
交互式可视化工具,用于展示 Transformer 模型中的注意力机制。支持 Hugging Face 模型,可在 Jupyter 或 Colab 中运行,提供头部、模型和神经元三种视图。
基于 PyTorch 的医疗影像 AI 工具包,提供灵活的数据预处理、可组合 API 及领域特定实现,支持多 GPU 多节点并行训练。
纯 PyTorch 实现的 Faster R-CNN,支持多 GPU 训练、多图像批次及 ROI Pooling/Align/Crop 三种池化方法,内存高效且训练速度快。
基于条件变分自编码器与对抗学习的端到端文本到语音合成系统,支持单阶段训练与并行采样。引入归一化流与随机时长预测器,实现自然的多对一映射,生成具有多样韵律的语音。在 LJ Speech 数据集上 MOS 评分接近真实语音。
基于 Stable Diffusion 实现 Dreambooth 微调,支持使用少量示例图像对文本到图像模型进行个性化训练。代码基于 Textual Inversion,但优化整个扩散模型而非仅词嵌入。提供训练脚本与配置,需准备正则化图像以提升编辑性。
斯坦福大学官方 NLP Python 库,支持 60+ 种语言的分词、句子分割、NER 和解析。提供生物医学和临床模型,可无缝处理文献与临床文本。
多语言语音理解模型,支持高精度 ASR、LID、SER 及 AED。基于 40 万小时数据训练,覆盖 50+ 语言,推理高效,支持微调与服务部署。
基于 PyTorch 的变分自编码器 (VAE) 集合,专注于可复现性。提供多种 VAE 模型(如 VAE、Conditional VAE、WAE、Beta-VAE 等)的实现,均在 CelebA 数据集上训练。支持 PyTorch Lightning,提供配置文件和 TensorBoard 日志。
高性能LLM KV缓存层,通过零CPU拷贝、NIXL等技术加速,支持跨数据中心复用缓存,显著降低首token延迟并提升吞吐量,适用于长上下文场景。
包含 GAN、VAE、RBM 和 Helmholtz Machine 的生成模型集合,使用 PyTorch 和 TensorFlow 实现。训练期间生成的样本将保存在对应模型的 out 目录。
基于 PyTorch 的 2D/3D 人脸对齐库,使用 FAN 深度学习模型。支持多种人脸检测器(SFD、dlib、BlazeFace),可处理图片或目录,兼容 CPU/GPU 运行。
OpenMMLab 姿态估计工具箱与基准。支持 2D/3D 人体、手部、面部、全身、动物等多种姿态估计任务。基于 PyTorch,提供丰富模型库与高效训练推理。
OpenMMLab 多模态高级、生成式与智能创作工具箱。提供易用 API、丰富模型库与扩散模型,支持文生图、图像/视频修复与增强等 AIGC 任务。
通过 Docker 轻松部署 Stable Diffusion,提供 AUTOMATIC1111 和 ComfyUI 等多种用户友好的 Web 界面,支持文生图、图生图等功能。
跨平台图像超分辨率工具,支持自定义模型。基于 TypeScript 开发,提供 Windows、macOS 和 Linux 版本,使用 cccv 后端,支持 NVIDIA 50 系列 GPU。
提供 Kevin Murphy 所著《概率机器学习》书籍的 Python 代码,用于复现书中图表。代码基于 Jupyter Notebook,使用 numpy、scipy、matplotlib 等标准库,并包含 JAX、TensorFlow 2 和 PyTorch 的部分实现。
基于 PyTorch 的开源神经机器翻译与大语言模型框架。支持 NMT、LLM、编码器及模型微调,提供 8/4 位量化与 LoRA 适配器。已推出新项目 Eole 作为替代。