深度学习 - 智狐AI导航

Fish Agent

Fish Agent是一款集成了自动语音识别（ASR）与文本到语音（TTS）技术的端到端语音处理工具，能够直接实现语音到语音的转换，无需传统语义编码器/解码器。它支持多种语言，适用于语音转换、环境音频信息捕捉等场景，并基于深度学习技术优化了语音处理性能。Fish Agent可广泛应用于内容创作、教育、客户服务及娱乐等领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 801 浏览

Pollinations.AI

Pollinations.AI是一个开源AI内容生成平台，提供图像生成、文本生成、音频转换及视觉分析等功能。用户无需注册即可使用，支持多种模型和参数配置，适合开发者和创作者快速集成与应用。平台还提供浏览器开发环境，简化了使用流程，提升了效率。

AI项目与工具 2025年06月11日 50 点赞 0 评论 799 浏览

MotionAgent一站式视频生成工具

MotionAgent 集成了大语言模型、文本生成图片模型、视频生成模型和音乐生成模型。

Ai开源项目 2025年06月05日 38 点赞 0 评论 796 浏览

文心iRAG

文心iRAG是百度推出的一种检索增强型文生图技术，它通过结合百度搜索引擎中的海量图片资源与先进基础模型能力，解决了大模型在文生图时容易出现的幻觉问题，显著提高了生成图片的真实性和准确性。此技术不仅适用于广告、媒体、教育等多个领域，还具备低成本、高效率的特点，能够快速生成满足需求的高质量图像。

AI项目与工具 2025年06月12日 66 点赞 0 评论 795 浏览

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具，支持零样本学习，无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式，支持最长 5 分钟视频处理，1 分钟内生成 10 秒视频，适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术，实现音频与视频的精准匹配，提升内容表现力。

AI项目与工具 2025年06月11日 42 点赞 0 评论 793 浏览

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型，支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎，能精准捕捉语音中的语调、节奏和情感，生成自然流畅的面部表情和动作。操作简单，无需专业技能，适用于多种角色形象，涵盖社交媒体、企业营销、在线教育等多个领域，是高效内容创作的理想选择。

AI项目与工具 2025年06月11日 45 点赞 0 评论 791 浏览

MisoraAI

Misora AI是一款集成了深度学习与自然语言处理技术的智能搜索引擎，具备快速搜索、精准匹配及自然语言交互等功能。它不仅能为用户提供即时的文本查询结果，还能生成创意内容如诗歌、故事等，并支持图像描述服务。Misora AI适用于多种场景，包括日常信息查询、学术研究、工作辅助以及娱乐资讯获取，为用户提供了便捷高效的智能化解决方案。

AI项目与工具 2025年06月12日 51 点赞 0 评论 790 浏览

VeoGo AI

VeoGo AI 是一款基于深度学习的短视频流量预测工具，可提前分析视频表现并提供优化建议，帮助创作者提升曝光与点击率。支持多平台算法适配，涵盖内容结构、画面构图、剪辑节奏、BGM选择等全方位优化指导，预测准确率超92%，适用于短视频创作与效率提升场景。

AI项目与工具 2025年06月11日 33 点赞 0 评论 790 浏览

SHMT

SHMT是一种基于自监督学习的高级化妆转移技术，由阿里巴巴达摩院与武汉理工大学联合研发。该技术无需成对训练数据，可将多种化妆风格自然迁移到目标面部图像上，通过“解耦-重建”策略和迭代双重对齐模块，实现高精度的纹理控制与对齐校正。适用于图像处理、虚拟试妆、影视设计等多个领域，具有高效、灵活、高质量的特点。

AI项目与工具 2025年06月12日 32 点赞 0 评论 785 浏览

Surya

Surya是一款开源OCR工具包，专注于文档识别，支持90多种语言的文本提取与分析。它能够识别文档中的文本、表格、图片及标题等布局元素，并确保文本阅读顺序的准确性。凭借其高效的表格识别能力和优化的算法，Surya在处理复杂文档时表现出色，广泛应用于文档数字化、数据提取、多语言处理以及学术研究等领域。 ---

AI项目与工具 2025年06月12日 16 点赞 0 评论 784 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期