多模态

灵语文档

灵语文档(MindLink)是一款AI驱动的云文档编辑平台,为企业提供一站式文档编辑和共享服务。平台支持思维导图、原型白板、可视化图表等多种文档组件,具备版本历史管理、智能创作、全平台访问、权限控制和AI智能助手等功能。基于AI与多模态能力,灵语文档提升团队协作效率,打破部门壁垒,增强信息共享,确保文档安全,助力企业高效管理知识资产,赋能数字化转型。

Jodi

Jodi是由中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,实现视觉生成与理解的统一。它支持联合生成、可控生成和图像感知三种任务,利用线性扩散Transformer和角色切换机制,提升生成效率和跨领域一致性。Jodi使用Joint-1.6M数据集进行训练,包含20万张高质量图像和7个视觉域标签,适用于创意内容生成、多模态数据增强、图像编辑与修复等场景。

Kanana

Kanana是一款由Kakao推出的生成式AI助手,具备强大的上下文理解和记忆能力。其核心功能包括群聊助手(Kana)和私人伴侣(Nana),前者专注于处理团队协作中的具体任务,后者则用于管理个人及集体事务。此外,该工具还支持多模态输入输出方式,可应用于商务、教育、社交等多个领域,并计划扩展至车载场景以提升用户体验。

SimpleAR

SimpleAR是一款由复旦大学与字节跳动联合研发的纯自回归图像生成模型,采用简洁架构实现高质量图像生成。其通过“预训练-有监督微调-强化学习”三阶段训练方法,提升文本跟随能力与生成效果。支持文本到图像及多模态融合生成,兼容加速技术,推理速度快。适用于创意设计、虚拟场景构建、多模态翻译、AR/VR等多个领域。

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。

达闼RobotGPT多模态大模型

达闼RobotGPT多模态大模型是一个创新的AI工具,它通过整合多模态数据处理能力,为机器人在多样化的应用场景中提供了强大的交互和行为生成能力。

Pixtral Large

Pixtral Large是一款由Mistral AI开源的超大规模多模态模型,具备1240亿参数,支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口,能在多语言环境中处理复杂文档和多图像场景,广泛应用于教育、医疗、客服和内容审核等领域。

Granite 3.2

Granite 3.2是IBM推出的开源多模态AI模型系列,具备强大的推理、视觉理解和预测能力。其核心功能包括链式推理、多模态融合、稀疏嵌入和时间序列预测,适用于复杂任务自动化、文档理解、安全监控等领域。Granite 3.2通过优化资源利用和安全性设计,提升了模型性能与实用性。

元象XVERSE

元象 XVERSE是国内领先的 AI 与 3D 技术服务公司,致力于打造 AI 驱动的 3D 内容生产与消费一站式平台,愿景为“定义你的世界”。

Add To Cart AI

Add To Cart AI 是一款基于AI技术的电商购物助手,支持多模态交互,能快速将购物清单、图片或聊天内容转化为购物车内容。结合生成式AI和语义搜索技术,提供个性化推荐与智能问答服务,提升购物效率与用户体验。适用于电商平台、品牌官网及社交媒体,支持品牌定制与数据安全保护。