多模态
MiniMax MCP Server
MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器,支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力,兼容多种主流客户端。平台采用客户端-服务器架构,结合 RAG 技术提升响应准确性,适用于教学、游戏开发、内容创作等多个领域。
Gemini Robotics
Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。
PixVerse V3
PixVerse V3是一款由爱诗科技开发的AI视频生成工具,具备创意模板、口型匹配、风格转换等多模态生成能力。其核心功能包括精准的提示词理解、高质量视频生成、多种视频比例支持以及风格化功能升级。新增的口型适配功能和8个创意效果模板进一步丰富了应用场景,适用于社交媒体、广告营销、教育、影视及游戏开发等领域。
