多模态 - 智狐AI导航

LiveKit Agents

LiveKit Agents 是一款基于 Python 的多模态 AI 工具框架，支持实时语音、视频和数据交互。其核心功能包括基于 WebRTC 的低延迟通信、与 OpenAI 等服务的深度集成、丰富的插件生态系统以及负载均衡与自动扩展能力。适用于虚拟助手、客户服务、实时翻译、视频内容审核等多个应用场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 821 浏览

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型，主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构，集成了视觉和语言信息，通过Siglip视觉编码器和Qwen-2语言模型，实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 821 浏览

紫东太初大模型

紫东太初，中科院自动化所和武汉人工智能研究院推出新一代大模型，从三模态走向全模态，支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务，拥有更强的认知、理解、创作能力，带来全新互动体验。

Ai平台模型 2025年06月05日 79 点赞 0 评论 820 浏览

OmniSearch

OmniSearch是一款由阿里巴巴通义实验室开发的多模态检索增强生成框架，具备自适应规划能力。它能够动态解析复杂问题，根据检索结果和问题情境调整检索策略，模拟人类解决复杂问题的行为，提升检索效率和准确性。OmniSearch支持多模态信息处理，包括文本、图像等，并通过递归检索与推理流程逐步接近问题解答，显著提高多模态检索的灵活性和效果。

AI项目与工具 2025年06月12日 52 点赞 0 评论 819 浏览

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型（MLLMs），能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能，并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外，OpenEMMA支持人类可读的输出，适用于多种驾驶环境，包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

AI项目与工具 2025年06月12日 36 点赞 0 评论 819 浏览

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台，基于 AI 技术提供高质量文字转语音服务，支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆，并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景，提升语音内容制作效率。

AI项目与工具 2025年06月11日 96 点赞 0 评论 819 浏览

QLIP

QLIP是一种基于二进制球形量化（BSQ）的视觉标记化方法，具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略，QLIP可作为视觉编码器或图像标记器，广泛应用于多模态任务，如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率，为统一多模态模型的开发提供了新思路。

AI项目与工具 2025年06月11日 18 点赞 0 评论 818 浏览

跃问视频

由阶跃星辰开发的AI视频生成工具，只需通过简单的文本输入跃问视频就可以生成最长10秒的视频。

Ai视频生成 2025年06月05日 88 点赞 0 评论 817 浏览

Magic 1

Magic 1-For-1是由北京大学、Hedra Inc. 和 Nvidia 联合开发的高效视频生成模型，通过任务分解和扩散步骤蒸馏技术实现快速、高质量的视频生成。支持文本到图像和图像到视频两种模式，结合多模态输入提升语义一致性。采用模型量化技术降低资源消耗，适配消费级硬件。广泛应用于内容创作、影视制作、教育、VR/AR及广告等领域。

AI项目与工具 2025年06月12日 15 点赞 0 评论 817 浏览

Learn About

Learn About是一款由谷歌开发的对话式AI学习助手，基于Gemini模型，通过问答形式为用户提供简明答案并引导深入学习。它具备知识点梳理、参考资料推荐、内容大纲生成等功能，覆盖多学科领域，支持多模态学习资源，旨在提升用户的理解深度和学习效率。适合学术研究、备考复习、技能学习、家庭教育及终身学习等多种应用场景。

AI项目与工具 2025年06月12日 31 点赞 0 评论 816 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期