创作

DecipherIt

DecipherIt是一款AI驱动的研究助手工具,能够将多种主题、链接和文件转化为AI生成的研究笔记本。它提供全面的总结、互动问答、音频概述、可视化思维导图及自动化的FAQ生成等功能。基于Bright Data的MCP服务器,DecipherIt可突破地理限制和反爬虫检测,获取全球信息。同时,它采用多智能体AI框架CrewAI,高效整合多源数据,适用于学术研究、市场分析、教育学习等多个场景。

MoonCast

MoonCast 是一个零样本播客生成系统,能够从纯文本源合成自然的播客风格语音。它采用长上下文语言模型和大规模语音数据训练,支持中文和英文,生成几分钟长的高质量播客音频。MoonCast 通过特定的LLM提示生成播客脚本,并利用语音合成模块转换为最终音频,具备长音频生成、增强自然性、多语言支持和零样本语音合成等功能。其技术原理包括多阶段训练、短段级别自回归音频重建和自发性增强,适用于内容创作、教

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足

PageOn.ai

PageOn.ai是一个AI驱动的内容创作平台,帮助用户快速生成高质量的视觉内容。通过AI Agent理解用户需求,自动生成动态视觉元素,如互动图表、3D模型和媒体内容。用户只需描述外观和感觉,AI即可转化为视觉表达。平台具备深度搜索功能,支持拖放和斜杠命令组合内容,打造个性化视觉故事。主要功能包括AI生成幻灯片、智能演示、数据图表生成、实时语音交互和多人协作等,适用于教学演示、商务会议、项目汇报

AiMakeSong

AiMakeSong是一个基于人工智能的音乐和歌曲生成平台,用户可以通过文本输入或歌词创作生成高质量音乐。支持将文字描述转化为音乐,或将歌词转化为完整歌曲,提供多种音乐风格和声音选项,包括流行、摇滚、说唱、古典等,以及男性、女性或乐器声音。平台还具备免费去除人声、带人声的AI音乐生成等功能,适用于内容创作、广告、教育等多个场景。

DeepSider

DeepSider 是一款集成在浏览器侧边栏的 AI 对话工具,支持多种顶级 AI 模型如 GPT-4o、Grok3 和 Claude 3.5。用户可通过简洁交互完成复杂任务,包括 AI 搜索、实时问答、内容创作、翻译和代码生成等。该工具支持文档上传分析,结合最新数据提供准确答案,具备快速响应和高效交互设计,适用于提升工作效率和学习效率。

CRIC深度智联

CRIC深度智联是克而瑞推出的中国首个房地产垂直领域的AI Agent,基于20年行业经验和多模态大模型技术,提供搜索、文章创作、报告生成和知识库管理等功能。它能够自动生成核心结论、可视化图表和专业报告,帮助房地产从业者提升效率和决策质量,被誉为地产人的“第二大脑”。

Jaaz

Jaaz是一款开源的AI设计Agent,提供本地免费的AI设计服务。它能智能生成设计提示,批量生成图像、海报和故事板,并支持Ollama、Stable Diffusion等本地图像和语言模型。用户可通过GPT-4o、Flux Kontext等技术在对话中编辑图像,进行对象移除和风格转换。Jaaz提供无限创意画布,适用于创意设计、快速原型、教育及个人创作等多种场景。

OmniSync

OmniSync是由中国人民大学、快手科技和清华大学联合开发的通用对口型框架,基于扩散变换器实现视频中人物口型与语音的精准同步。它采用无掩码训练范式,直接编辑视频帧,支持无限时长推理,保持自然面部动态和身份一致性。通过渐进噪声初始化和动态时空分类器自由引导(DS-CFG)机制,提升音频条件下的口型同步效果。OmniSync适用于影视配音、虚拟现实、AI内容生成等多个场景。

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具,集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能,支持多客户端和多场景应用。基于标准化接口和开源生态,提供高效、灵活的数字生产力解决方案,适用于内容创作、虚拟主播、在线教育等多个领域。