书生·万象InternVL 2.5
书生·万象InternVL 2.5是一款开源多模态大型语言模型,基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型,支持多种应用场景,包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异,性能超越部分商业模型,并通过链式思考技术提升多模态推理能力。
Scenethesis
Scenethesis是NVIDIA推出的AI框架,可通过文本生成高质量的3D场景。它结合LLM与视觉技术,经过布局规划、视觉细化、物理优化和场景验证四个阶段,确保生成结果具备物理合理性和空间连贯性。支持用户交互与多样化场景构建,广泛应用于VR/AR、游戏开发、具身智能及虚拟内容创作等领域。
Pixtral 12B
Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括
AnchorCrafter
AnchorCrafter是一款基于扩散模型的智能视频生成工具,利用人-物交互(HOI)技术生成高质量主播风格产品推广视频。它支持物体外观保持、运动控制、遮挡处理及细节增强学习,适用于在线购物、社交媒体营销、电视广告制作等多个领域,显著提升视频真实感和互动性。
MagicQuill
MagicQuill是一款基于AI的开源图像编辑工具,提供智能化的局部编辑功能。其核心功能包括AI驱动的智能建议、精确的像素级编辑(如添加、删除和颜色调整),以及多种定制化工具(如添加笔刷、减去笔刷和颜色笔刷)。此外,它还具备实时意图预测和参数调整能力,支持多模态大语言模型和扩散模型的协作,适用于个人娱乐、教育、专业设计及商业应用等多个领域。
