多模态 - 智狐AI导航

灵犀 X2

灵犀 X2 是智元机器人推出的双足人形机器人，具备 28 个自由度和高灵活性，可完成跳舞、奔跑、骑车等复杂动作。搭载 Diffusion 动作生成引擎和多模态交互系统，支持情感识别与毫秒级响应。适用于家庭服务、教育、医疗护理、工业协作及娱乐场景，具备强大的环境感知与任务执行能力。

AI项目与工具 2025年06月12日 43 点赞 0 评论 526 浏览

Chinese

Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集，包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容，显著提升语音识别性能，实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境，为多模态语音识别研究提供丰富数据支持。

AI项目与工具 2025年06月11日 47 点赞 0 评论 525 浏览

硅基流动

SiliconCloud 是硅基流动推出的一站式大模型云服务平台。

创作工具 2026年06月21日 0 点赞 0 评论 524 浏览

LaDeCo

LaDeCo是一款基于多模态模型的自动化图形设计工具，通过分层规划与逐步生成的方式，实现从多模态输入到高质量设计输出的转换。其核心功能涵盖层规划、层级设计生成、分辨率调整、元素填充及多样化设计输出，广泛适用于设计师、研究人员、评估人员及开发者等群体，助力提升设计效率与质量。

AI项目与工具 2025年06月12日 53 点赞 0 评论 524 浏览

RapiLearn AI

RapiLearn AI 是一款基于人工智能的教育工具，支持多种格式学习资料的整合与生成，包括视频、音频、笔记、测试和思维导图等。具备交互式学习功能，提供智能助教服务，可拓展知识点并推荐相关内容。支持多模态学习体验，适用于学生、教师及各类学习者，提升学习效率与知识掌握度。

AI项目与工具 2025年06月12日 99 点赞 0 评论 523 浏览

VideoRAG

VideoRAG是一种基于检索增强生成（RAG）技术的工具，旨在提升长视频的理解能力。它通过提取视频中的多模态信息（如OCR、ASR和对象检测），并将其与视频帧和用户查询结合，增强大型视频语言模型的处理效果。该技术轻量高效，易于集成，适用于视频问答、内容分析、教育、媒体创作及企业知识管理等多个领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 523 浏览