多模态

Codex CLI

Codex CLI 是一款基于 OpenAI 模型的轻量级 AI 编程工具,支持通过自然语言指令生成代码、执行文件操作、进行数据库迁移等。它具备代码重构、测试生成、解读及多模态处理能力,适用于开发者在终端中高效完成多种编程任务。工具兼容主流操作系统,提供安全的沙盒执行环境,并支持个性化配置。

Matrix3D

Matrix3D 是一种由多所高校与科技企业联合开发的统一摄影测量模型,集姿态估计、深度预测、新视图合成与3D重建于一体。其核心技术为多模态扩散变换器,支持跨模态数据融合与灵活任务处理。通过掩码学习策略,提高数据利用效率并增强模型泛化能力。适用于VR/AR、游戏开发、影视制作等领域,具有高度交互性和灵活性。

Data Agent

Data Agent是由火山引擎推出的智能数据分析工具,支持结构化与非结构化数据的整合与分析,提供智能对话查询、多模态分析及自动报告生成等功能。它能够优化企业营销策略、提升客户管理效率,并支持实时监控与风险预警,适用于决策支持、营销优化、客户管理等多个业务场景,帮助企业实现数据驱动的高效运营。

EVI 3

EVI 3是Hume AI推出的全新语音语言模型,能够同时处理文本和语音标记,实现自然、富有表现力的语音交互。它支持高度个性化,根据用户提示生成任何声音和个性,并实时调节情感和说话风格。在与GPT-4o等模型的对比中,EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优,具备低延迟响应能力,可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。

日日新SenseNova V6

日日新SenseNova V6是商汤科技推出的第六代多模态大模型,基于6000亿参数架构,支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力,适用于视频分析、教育辅导、智能客服、具身智能等多个领域,提升交互体验与内容处理效率。

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架,采用多智能体协作与动态迭代推理技术,提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合,支持精准检索与高质量生成,适用于教育、金融、医疗等多个领域,显著提升文档处理效率与准确性。

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

达闼RobotGPT多模态大模型

达闼RobotGPT多模态大模型是一个创新的AI工具,它通过整合多模态数据处理能力,为机器人在多样化的应用场景中提供了强大的交互和行为生成能力。

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。