多模态
书生·万象InternVL 2.5
书生·万象InternVL 2.5是一款开源多模态大型语言模型,基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型,支持多种应用场景,包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异,性能超越部分商业模型,并通过链式思考技术提升多模态推理能力。
Pixtral 12B
Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括
MagicQuill
MagicQuill是一款基于AI的开源图像编辑工具,提供智能化的局部编辑功能。其核心功能包括AI驱动的智能建议、精确的像素级编辑(如添加、删除和颜色调整),以及多种定制化工具(如添加笔刷、减去笔刷和颜色笔刷)。此外,它还具备实时意图预测和参数调整能力,支持多模态大语言模型和扩散模型的协作,适用于个人娱乐、教育、专业设计及商业应用等多个领域。