人工智能 - 智狐AI导航

MoonCast

MoonCast 是一个零样本播客生成系统，能够从纯文本源合成自然的播客风格语音。它采用长上下文语言模型和大规模语音数据训练，支持中文和英文，生成几分钟长的高质量播客音频。MoonCast 通过特定的LLM提示生成播客脚本，并利用语音合成模块转换为最终音频，具备长音频生成、增强自然性、多语言支持和零样本语音合成等功能。其技术原理包括多阶段训练、短段级别自回归音频重建和自发性增强，适用于内容创作、教

AI项目与工具 2025年06月11日 63 点赞 0 评论 557 浏览

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于200万小时音频数据训练，支持13种语言。采用双自回归架构和RLHF技术，生成自然流畅的语音，支持50多种情感和语调标记。具备零样本和少样本语音克隆功能，仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版，满足

AI项目与工具 2025年06月11日 28 点赞 0 评论 661 浏览

AiMakeSong

AiMakeSong是一个基于人工智能的音乐和歌曲生成平台，用户可以通过文本输入或歌词创作生成高质量音乐。支持将文字描述转化为音乐，或将歌词转化为完整歌曲，提供多种音乐风格和声音选项，包括流行、摇滚、说唱、古典等，以及男性、女性或乐器声音。平台还具备免费去除人声、带人声的AI音乐生成等功能，适用于内容创作、广告、教育等多个场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 525 浏览

Jaaz

Jaaz是一款开源的AI设计Agent，提供本地免费的AI设计服务。它能智能生成设计提示，批量生成图像、海报和故事板，并支持Ollama、Stable Diffusion等本地图像和语言模型。用户可通过GPT-4o、Flux Kontext等技术在对话中编辑图像，进行对象移除和风格转换。Jaaz提供无限创意画布，适用于创意设计、快速原型、教育及个人创作等多种场景。

AI项目与工具 2025年06月11日 79 点赞 0 评论 760 浏览

Bing Video Creator

Bing Video Creator是微软推出的AI视频生成工具，基于OpenAI的Sora模型，用户可通过输入文本描述快速生成5秒短视频。支持9:16格式，提供快速模式和标准模式，初始有10次免费生成机会。功能包括视频生成、多种风格选择、视频存储和分享等，适用于广告、教学、创意和个人娱乐等多种场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 863 浏览

DGM

DGM（Darwin Gödel Machine）是一种自改进人工智能系统，通过迭代修改自身代码提升性能。它从编码代理档案中选择代理，基于基础模型生成新版本，并在基准测试中验证性能。DGM受达尔文进化论启发，采用开放性探索策略，避免局部最优解。其自改进过程在隔离沙盒中进行，确保安全性。DGM在多个基准测试中表现显著提升，如SWE-bench和Polyglot。主要功能包括自我改进、实证验证、开放性

AI项目与工具 2025年06月11日 19 点赞 0 评论 760 浏览

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 720 浏览

OmniSync

OmniSync是由中国人民大学、快手科技和清华大学联合开发的通用对口型框架，基于扩散变换器实现视频中人物口型与语音的精准同步。它采用无掩码训练范式，直接编辑视频帧，支持无限时长推理，保持自然面部动态和身份一致性。通过渐进噪声初始化和动态时空分类器自由引导（DS-CFG）机制，提升音频条件下的口型同步效果。OmniSync适用于影视配音、虚拟现实、AI内容生成等多个场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 851 浏览

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent，具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库，筛选、分析最相关的文献，整合不同文献中的观点，为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略，实现高效的多步推理和信息检索能力，适用于学术研究、商业决策和日常生活等多种场景。

AI项目与工具 2025年06月11日 20 点赞 0 评论 723 浏览

MagicTryOn

MagicTryOn是由浙江大学和vivo等机构开发的视频虚拟试穿框架，采用扩散Transformer（DiT）架构替代传统U-Net，结合全自注意力机制实现视频时空一致性建模。通过粗到细的服装保持策略，整合服装标记与多条件引导，有效保留服装细节。该工具在图像和视频试穿任务中表现优异，适用于在线购物、时尚设计、虚拟试衣间等多种场景。

AI项目与工具 2025年06月11日 81 点赞 0 评论 569 浏览

人工智能

首页

人工智能

列表

默认

浏览次数

发布日期