多模态 - 智狐AI导航

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型，基于LLaVA架构设计，包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出，适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术，实现了跨模态任务的精准处理与高效输出。

AI项目与工具 2025年06月12日 14 点赞 0 评论 592 浏览

Megrez

Megrez-3B-Omni是一款具备全模态理解能力的开源模型，支持图像、音频和文本的综合处理，具备强大的推理效率和多模态交互功能。它能够在多个权威测试集中展现卓越性能，尤其擅长场景理解、OCR识别及语言生成等任务，同时通过智能WebSearch调用增强问题解答能力，适用于个人助理、智能家居、车载系统等多种应用场景。

AI项目与工具 2025年06月12日 25 点赞 0 评论 963 浏览

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型，拥有十亿参数量，可自主完成复杂任务，如调酒和遛狗。该模型基于模仿学习，具备强大的泛化能力和操作精度，支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景，推动机器人技术发展。

AI项目与工具 2025年06月12日 83 点赞 0 评论 885 浏览

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型，专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模，广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 688 浏览

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 805 浏览

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型（MLLM）。它通过整合视觉、语音和文本三种模态的信息，实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据，还支持流式文本-语音生成及跨模态信息交互，适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 563 浏览

Ivy

Ivy-VL是一款专为移动端和边缘设备设计的轻量级多模态AI模型，具备约30亿参数，专注于视觉问答、图像描述及复杂推理等任务，能够有效降低计算资源需求，同时在多模态任务中表现出色，尤其适用于增强现实、智能家居及移动学习等领域。

AI项目与工具 2025年06月12日 21 点赞 0 评论 687 浏览

NodeTool

NodeTool是一款开源的AI工作流可视化构建工具，通过图形化界面和无代码开发环境，用户可以便捷地集成并运行多种AI模型。它支持本地GPU运行、云服务扩展以及多模态数据处理，适用于图像生成、音乐创作、音频转视觉艺术等多个领域，为非技术用户提供高效且灵活的AI解决方案。 ---

AI项目与工具 2025年06月12日 57 点赞 0 评论 965 浏览

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架，可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性，显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点，适用于电影、游戏、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 84 点赞 0 评论 662 浏览

WeaveFox

WeaveFox 是一款基于 AI 技术的前端开发平台，通过百灵多模态大模型实现从设计图到前端源代码的自动化生成，支持多端适配及多种技术栈。它不仅提高了开发效率和代码质量，还提供了灵活的二次调整功能，确保设计意图的精准还原。未来，WeaveFox 将开放更多应用场景，如快速原型开发、中后台页面构建以及移动端界面生成等。

AI项目与工具 2025年06月12日 88 点赞 0 评论 541 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期