多模态 - 智狐AI导航

AddressCLIP

AddressCLIP 是一种基于 CLIP 技术的端到端图像地理定位模型，由中科院自动化所与阿里云联合开发。它通过图像与地址文本对齐和地理匹配技术，实现街道级别的精确定位，无需依赖 GPS。模型在多个数据集上表现优异，适用于城市管理、社交媒体、旅游导航等多个场景，具备良好的灵活性和多模态结合潜力。

AI项目与工具 2025年06月12日 30 点赞 0 评论 609 浏览

LiveCC

LiveCC是一款由新加坡国立大学Show Lab与字节跳动联合开发的实时视频解说模型，基于自动语音识别字幕进行训练。它能够实时生成自然流畅的视频评论和回答相关问题，适用于体育、新闻、教育等多个场景。模型采用流式训练方法，结合大规模数据集和Qwen2-VL架构，具备低延迟和高质量的生成能力。LiveCC通过LiveSports-3K基准测试评估性能，广泛应用于视频内容分析与智能交互场景。

AI项目与工具 2025年06月11日 100 点赞 0 评论 608 浏览

山海大模型

山海大模型是一款由云知声推出的多模态人工智能模型，具备强大的知识储备和多模态交互能力。它能够通过文本、音频和图像等形式与用户进行实时互动，提供信息查询、知识学习和灵感激发等服务。主要功能包括内容生成与理解、知识问答、逻辑推理、代码能力以及多模态交互特色，如实时响应、情绪感知、音色切换和视觉场景理解。该模型可应用于智能客服、教育辅助、医疗咨询、个人助理和内容创作等多个领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 608 浏览

LTX Studio

LTX Studio 是由知名 AI 平台 Lightricks（也是 Facetune、Videoleap 和 Photoleap 等应用的开发者）推出的一项创新服务，它是一个生成式 AI 电影制作和视频短片生成平台。

Ai视频生成 2026年06月22日 0 点赞 0 评论 607 浏览

Gemma 3 QAT

Gemma 3 QAT 是谷歌推出的开源 AI 模型，采用量化感知训练技术，在降低显存需求的同时保持高性能。它支持多模态任务，具备 128,000-token 长上下文处理能力，并可在消费级 GPU 和边缘设备上运行。适用于视觉问答、文档分析、长文本生成等场景，同时兼容多种推理框架，便于部署。

AI项目与工具 2025年06月11日 44 点赞 0 评论 605 浏览

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用，采用轻量级多模态模型 SmolVLM2，支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能，适用于旅行、日常辅助、医疗及零售等场景，确保用户数据安全。

AI项目与工具 2025年06月12日 23 点赞 0 评论 605 浏览

心绪云脑AI

一款专注于情绪健康管理的AI智能工具，提供情绪记录、实时情绪识别与疏导、心理健康课程等服务，帮助用户更好地管理情绪，提升心理健康。

生活创意 2025年06月05日 31 点赞 0 评论 603 浏览

Oryx

Oryx是一款由清华大学、腾讯和南洋理工大学联合开发的多模态大型语言模型，专为处理视觉数据设计。其核心技术包括预训练的OryxViT模型和动态压缩模块，支持任意分辨率的图像处理及高效的视觉数据压缩。Oryx在空间和时间理解上表现优异，广泛应用于智能监控、自动驾驶、人机交互、内容审核、视频编辑及教育等领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 601 浏览

Eagle

Eagle是一个由英伟达开发的多模态大模型，专长于处理高分辨率图像，提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构，通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源，适用于多个行业，具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

AI项目与工具 2025年06月12日 38 点赞 0 评论 600 浏览

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型，专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性，采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能，并且其源代码和资源已公开，可供研究和应用。

AI项目与工具 2025年06月12日 73 点赞 0 评论 600 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期