PDF to Podcast PDF to Podcast 是一款由 NVIDIA 开发的 AI 工具,能够将 PDF 文档自动转换为高质量的音频内容,如播客。该工具结合了大型语言模型、文本到语音技术以及 NVIDIA NIM 微服务架构,支持从 PDF 提取信息并生成结构化文本,再通过语音合成输出自然流畅的音频。用户可自定义生成内容的重点,并支持多种部署方式,适用于企业培训、技术简报、客户服务、医疗教育等多个领域。 AI项目与工具 2025年06月12日 32 点赞 0 评论 188 浏览
HUGWBC HUGWBC是由上海交通大学与上海AI Lab联合开发的人形机器人全身控制器,支持多种自然步态和精细参数调整,具备高鲁棒性和实时外部干预能力。基于强化学习和不对称训练框架,实现从模拟到现实的高效迁移,适用于复杂地形导航、动态任务执行及人机协作等多种场景。 AI项目与工具 2025年06月12日 34 点赞 0 评论 508 浏览
Webdone Webdone 是一款基于人工智能的网站构建平台,支持用户通过简单描述快速生成专业落地页和网站,无需编程或设计技能。其提供拖拽式编辑器和 Next.js 开发环境,支持高度定制化与性能优化,适用于初创企业、开发者、自由职业者及教育机构等多种场景,助力高效建站与内容管理。 AI项目与工具 2025年06月12日 78 点赞 0 评论 185 浏览
YAYI YAYI-Ultra是中科闻歌研发的企业级大语言模型,具备多领域专业能力与多模态内容生成能力,支持数学、代码、金融、中医等领域。模型支持超长文本处理、数据分析、任务规划及联网创作,适用于媒体、医疗、财税等行业。采用混合专家架构,结合指令微调技术,在多项评测中表现优异,提供高效、精准的智能化服务。 AI项目与工具 2025年06月12日 25 点赞 0 评论 498 浏览
TurboTTS TurboTTS是一款支持多语言的在线文本转语音工具,提供300多种真实语音选择,生成自然流畅的语音效果。适用于短视频、教育、广告及播客等多种场景,操作简单,支持多种音频格式下载,并可合法用于商业用途。凭借AI技术,用户能高效完成语音内容制作,满足多样化需求。 AI项目与工具 2025年06月12日 20 点赞 0 评论 237 浏览
InspireMusic InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。 AI项目与工具 2025年06月12日 83 点赞 0 评论 490 浏览
Zonos Zonos是一款由Zyphra开发的高保真文本到语音(TTS)模型,支持零样本语音克隆和多语言生成,具备精细的情感与语音参数控制能力。其采用Transformer和SSM混合架构,基于大规模语音数据训练,适用于有声读物、虚拟助手、多媒体创作及无障碍技术等多个领域。模型开源且支持实时语音生成,具有广泛的应用潜力。 AI项目与工具 2025年06月12日 69 点赞 0 评论 217 浏览
VideoCaptioner VideoCaptioner是一款基于大语言模型的智能字幕处理工具,支持语音识别、字幕优化、翻译、样式调整及视频合成等功能。无需GPU即可运行,兼容多语言和多种字幕格式,适用于视频创作者、教育工作者及字幕翻译团队,提升字幕制作效率与质量。 AI项目与工具 2025年06月12日 50 点赞 0 评论 345 浏览
Omniflow Omniflow 是一款基于AI的产品开发工具,旨在提升创意转化效率。其核心功能涵盖创意梳理、文档生成、任务分解与项目监控,支持自动化流程与多平台集成,适用于多种行业场景,助力团队高效协作与高质量交付。 AI项目与工具 2025年06月12日 100 点赞 0 评论 215 浏览
Goku Goku是由香港大学与字节跳动联合开发的AI视频生成模型,支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本,专注于广告视频创作,具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构,适用于广告、教育、娱乐等多个领域,提升了内容创作效率与质量。 AI项目与工具 2025年02月11日 29 点赞 0 评论 407 浏览