多模态 - 智狐AI导航

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型，具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成，适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据，并从美学角度进行图像评价，适合需要高效图像处理和智能交互的应用场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 654 浏览

讯飞星火X1

讯飞星火X1是科大讯飞推出的基于全国产算力平台训练的大型语言模型，具备深度推理和“慢思考”能力，适用于数学、代码、逻辑推理、文本生成等任务。支持快慢思考统一模型，部署简便，算力需求低。广泛应用于教育、医疗、健康管理等领域，提供精准的智能服务与解决方案。

AI项目与工具 2025年06月12日 99 点赞 0 评论 520 浏览

MiniMax

MiniMax-01是由MiniMax推出的高性能AI模型系列，包含语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。该系列采用线性注意力机制，支持处理长达400万token的上下文，性能接近国际领先模型。具备强大的语言理解、多模态处理及长文本分析能力，适用于企业、教育、科研及开发等多个领域。API定价合理，提供高效的长文本处理与多模态交互解决方案。

AI项目与工具 2025年06月12日 30 点赞 0 评论 610 浏览

MinMo

MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型，具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互，适用于智能客服、教育、医疗等多个领域，提升人机对话的自然度与效率。

AI项目与工具 2025年06月12日 59 点赞 0 评论 879 浏览

Emotion

Emotion-LLaMA是一款基于多模态输入的情绪识别与推理模型，结合音频、视觉和文本信息，提升情感理解的准确性与可解释性。模型采用改进版LLaMA架构，通过指令调整增强情感处理能力，并依托自建的MERR数据集进行训练与验证。在多个挑战赛中表现优异，适用于人机交互、教育、心理健康、客户服务等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 85 点赞 0 评论 670 浏览

日日新融合大模型

日日新融合大模型（SenseNova）是商汤科技推出的多模态AI系统，支持文本、图像、视频等多种数据的融合处理，具备强大的深度推理与多模态分析能力。该模型在多个权威评测中表现优异，广泛应用于自动驾驶、视频交互、办公教育、金融、园区管理及工业制造等领域，提升了多场景下的智能化水平。

AI项目与工具 2025年06月12日 88 点赞 0 评论 814 浏览

S2V

S2V-01是MiniMax研发的视频生成模型，基于单图主体参考架构，可快速生成高质量视频。它能精准还原图像中的面部特征，保持角色一致性，并通过文本提示词灵活控制视频内容。支持720p、25fps高清输出，具备电影感镜头效果，适用于短视频、广告、游戏、教育等多种场景，具有高效、稳定和高自由度的特点。

AI项目与工具 2025年06月12日 100 点赞 0 评论 568 浏览

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备，支持多模态感知与多维表达，提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音，接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域，提升服务效率与用户体验。

AI项目与工具 2025年06月12日 10 点赞 0 评论 722 浏览

MultiBooth

MultiBooth是一种由多所高校和研究机构联合开发的多概念图像生成工具，能够根据文本提示生成包含多个指定概念的高质量图像。其核心技术包括单概念学习和多概念整合，采用多模态编码器、自适应归一化和区域定制化模块，实现高效、精准的图像生成。支持插件式架构，具备良好的扩展性和灵活性，适用于创意设计、广告、教育、电商及科研等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 705 浏览

Seer

Seer是一款由多家科研机构联合开发的端到端机器人操作模型，基于Transformer架构实现视觉预测与动作执行的高度协同。它能够融合多模态信息，具备强大的泛化能力和数据效率，在真实机器人任务中表现优异。Seer适用于工业自动化、服务机器人、医疗健康等多个领域，支持精准动作预测和未来状态预判，显著提升了机器人系统的智能化水平。

AI项目与工具 2025年06月12日 54 点赞 0 评论 663 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期