多模态

LaDeCo

LaDeCo是一款基于多模态模型的自动化图形设计工具,通过分层规划与逐步生成的方式,实现从多模态输入到高质量设计输出的转换。其核心功能涵盖层规划、层级设计生成、分辨率调整、元素填充及多样化设计输出,广泛适用于设计师、研究人员、评估人员及开发者等群体,助力提升设计效率与质量。

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统,融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合,实现了高效的数据对齐与处理,并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力,适用于工业设计、建筑设计、汽车制造等多个领域。

腾讯乐享AI助手

腾讯乐享AI助手,基于腾讯的大模型等 AIGC 能力开发,该助手集成了腾讯乐享的多项产品能力,包括智能知识问答、多模态智能搜索、AI 辅助创作、智能生成考题等功能。

Firefly Image Model 4

Firefly Image Model 4 是 Adobe 推出的图像生成模型,支持高分辨率(最高2K)图像生成,并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术,包括 GAN 和 Diffusion Model,能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

xGen

xGen-MM是一款由Salesforce开发的开源多模态AI模型,具备处理文本和图像等数据类型的能力。该模型通过学习大量图像和文字信息,在视觉语言任务中表现出色,并通过开源模型、数据集和微调代码库促进模型性能的提升。xGen-MM具有多模态理解、大规模数据学习、高性能生成、开源可访问和微调能力等特点。其应用场景广泛,包括图像描述生成、视觉问答、文档理解、内容创作和信息检索等。

HiDream.ai

HiDream.ai是一家由前京东副总裁梅涛创立的AI初创公司,推出了名为Pixeling千象的多模态AI视觉平台。该平台支持AI图像、视频和3D生成,集成了先进的神经网络和深度学习技术,具备强大的推理和创造性思维能力,能够实现不同模态之间的无缝转换和互操作性,为用户提供丰富的视觉内容创作及高效的生产力解决方案。主要功能包括智能图片生成、视频创意制作、商品图生成、视频风格转换、3D模型生成、智能重

星火快答

星火快答是科大讯飞推出的AI智能交互系统,集成了虚拟人、语音识别、大数据分析等功能,适用于展厅、会议、营销等场景。支持多模态交互、知识问答、数据可视化与跨屏联动,提升信息传递效率与用户体验。

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型,采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理,强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本,适用于研究、开发及各类应用场景,展现卓越性能。

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

Character

Character-3 是 Hedra Studio 推出的全模态 AI 视频生成工具,支持图像、文本和音频输入,生成高质量动态视频。具备全身动作捕捉、情感控制、精准对口型等功能,适用于创意视频、虚拟形象、教育、营销等多个场景。采用多模态融合与先进 AI 技术,提升视频自然度与连贯性,提高内容创作效率。