深度学习 - 智狐AI导航

ViTPose

ViTPose 是一种基于 Transformer 架构的人体姿态估计模型，通过图像块处理和特征提取实现关键点定位。提供多种版本，适用于不同任务需求。模型结构简洁，支持灵活扩展和参数调整，具备知识迁移能力。ViTPose+ 拓展至动物姿态估计，提升适用范围。在多个数据集上达到 SOTA 性能，广泛应用于运动分析、虚拟现实等领域。

AI项目与工具 2025年06月12日 28 点赞 0 评论 687 浏览

Immersity AI

Immersity AI 是一款基于先进神经深度学习技术的AI平台，可将2D图像和视频转换为沉浸式3D视觉效果。它具备实时预览、编辑功能，并支持从静态图片到动态视频的全面转换，广泛应用于社交媒体、广告营销、教育、娱乐等领域，旨在提升用户体验与内容表现力。

AI项目与工具 2025年06月12日 79 点赞 0 评论 688 浏览

微软VASA

微软亚洲研究院开发的一种前沿人工智能技术，VASA-1能够将单一静态图像和一段语音音频转换成逼真的对话面部动画。

Ai视频生成 2025年06月05日 67 点赞 0 评论 688 浏览

Stable Audio Open Small

Stable Audio Open Small 是由 Stability AI 与 Arm 联合开发的轻量级文本到音频生成模型，参数量降至 3.41 亿，适配移动设备和边缘计算场景。基于深度学习与模型压缩技术，支持快速生成音效、音乐片段等音频内容，适用于实时音频生成任务。具备高效运行、低功耗、多场景应用等特点，可用于音乐创作、游戏音效、视频配乐等领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 688 浏览

PixVerse V4

PixVerse V4 是一款基于 AI 的视频生成工具，支持通过文本或图片快速生成高质量视频，最快仅需 5 秒。具备音效生成、人声配音、视频风格转换等功能，适用于多种创作场景。其在语义理解、物理表现和特效处理方面有显著提升，适合个人创作、广告营销、教育及影视娱乐等领域使用。

AI项目与工具 2025年06月12日 97 点赞 0 评论 689 浏览

UnZipLoRA

UnZipLoRA是一种由伊利诺伊大学厄巴纳-香槟分校研发的图像处理技术，能够将图像内容与风格分离，并分别以两个LoRA模型表示。该技术通过提示分离、列分离和块分离策略，有效解决内容与风格纠缠的问题，支持高效训练和兼容性组合。可用于艺术创作、图像编辑、风格迁移及个性化图像生成等场景，提升图像处理的灵活性和可控性。

AI项目与工具 2025年06月12日 81 点赞 0 评论 689 浏览

PrimitiveAnything

PrimitiveAnything是由腾讯AIPD与清华大学联合开发的3D形状生成框架，通过将复杂3D形状分解为基本基元并自回归生成，实现高质量、高保真度的3D模型重建。其支持从文本或图像生成内容，具备高效存储、模块化设计及良好的泛化能力，适用于3D建模、游戏开发、UGC创作及VR/AR应用等领域。

AI项目与工具 2025年06月11日 14 点赞 0 评论 692 浏览

AnimePro FLUX

AnimePro FLUX是一款基于Flux模型优化的动漫风格图像生成工具，支持高质量二次元插画创作。它具备灵活的生成步数控制、高效的硬件兼容性以及出色的细节和色彩表现，广泛应用于艺术创作、游戏开发、动画制作及教育等领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 693 浏览

ClearerVoice

ClearerVoice-Studio 是一个基于复数域深度学习算法的开源语音处理框架，集成了语音增强、分离及音视频说话人提取等功能。它通过先进的 FRCRN 和 MossFormer 系列模型，实现了高效的语音信号处理，并具备强大的预训练能力和灵活的接口设计。该框架广泛应用于智能助手、会议记录、电话会议、公共安全等领域，助力提升语音处理技术的实际应用价值。

AI项目与工具 2025年06月12日 81 点赞 0 评论 695 浏览

STranslate

STranslate是一款面向Windows用户的多功能翻译和OCR工具，支持多种语言翻译，包括划词、截图和监听剪贴板等多种方式，并集成了多家翻译服务接口。它还具备基于PaddleOCR技术的离线OCR功能，支持中文、英文、日文和韩文的识别。此外，该工具还具备快捷键操作、历史记录和在线升级等功能，是提高工作效率的理想工具。

AI项目与工具 2025年06月12日 10 点赞 0 评论 695 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期