多模态 - 智狐AI导航

CDial

CDial-GPT是一项由清华大学研发的基于大型中文对话数据集LCCC的预训练对话生成模型。该模型提供LCCC-base和LCCC-large两个版本的数据集，并具备预训练、微调、多模态学习等功能，能够生成高质量的对话回应。其应用场景涵盖客户服务、智能助手、在线教育等多个领域。

AI项目与工具 2025年06月12日 63 点赞 0 评论 726 浏览

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API，支持文本与音频输入输出，具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接，支持事件驱动的交互模式，适用于客户服务、语言学习、游戏娱乐等多种应用场景。

AI项目与工具 2025年06月12日 41 点赞 0 评论 756 浏览

MMSearch

MMSearch 是一款用于评估大型多模态模型（LMMs）搜索能力的基准测试工具，包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结，通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异，且增加计算量比扩大模型规模更具优势。

AI项目与工具 2025年06月12日 44 点赞 0 评论 592 浏览

LiveKit Agents

LiveKit Agents 是一款基于 Python 的多模态 AI 工具框架，支持实时语音、视频和数据交互。其核心功能包括基于 WebRTC 的低延迟通信、与 OpenAI 等服务的深度集成、丰富的插件生态系统以及负载均衡与自动扩展能力。适用于虚拟助手、客户服务、实时翻译、视频内容审核等多个应用场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 821 浏览

TinyVLA

TinyVLA是一种轻量级的视觉-语言-动作（VLA）模型，专为机器人操控设计。它通过结合多模态模型和扩散策略解码器，实现了快速推理、数据高效和多任务学习的能力，并在泛化性能上表现优异。TinyVLA可应用于家庭、工业、服务等多个领域，具有广泛的实用价值。

AI项目与工具 2025年06月12日 91 点赞 0 评论 788 浏览

Aria

Aria是首个开源多模态原生混合专家（MoE）模型，支持文本、代码、图像和视频的综合处理，具有强大的多模态任务处理能力和长上下文窗口，可高效应对复杂长数据。模型开源且可扩展，适用于多模态AI领域的研究与应用。

AI项目与工具 2025年06月12日 48 点赞 0 评论 599 浏览

异世界回响

异世界回响是一款基于人工智能的社交平台，用户可与虚拟角色进行沉浸式交流。平台支持自定义角色形象与声音，提供AIGC工具创建独一无二的角色，并具备数字分身功能。主要面向寻求创新社交体验、情感陪伴以及对AI技术感兴趣的人群。

AI项目与工具 2025年06月12日 28 点赞 0 评论 686 浏览

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型，具备强大的文本与图像理解能力，包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法，实现了从1B到30B参数规模的性能提升，并推出了视频和移动UI专用版本，为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 806 浏览

Agent

Agent-S 是一款基于图形用户界面（GUI）的人机交互自动化框架，通过经验增强的分层规划和代理-计算机接口（ACI），实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型（MLLMs）进行推理和控制，并具备持续学习和跨操作系统通用性的特点，适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。

AI项目与工具 2025年06月12日 50 点赞 0 评论 735 浏览

Augmented Physics

Augmented Physics是一款基于人工智能的教育工具，旨在通过计算机视觉技术和多模态语言模型，将物理教科书中的静态图表转化为动态交互式模拟，帮助学生更好地理解物理概念。它支持多种仿真类型，包括光学、运动学和电路等，并提供动态可视化和动画效果，同时无需编程技能即可创建仿真。

AI项目与工具 2025年06月12日 71 点赞 0 评论 791 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期