多模态模型
MultiBooth
MultiBooth是一种由多所高校和研究机构联合开发的多概念图像生成工具,能够根据文本提示生成包含多个指定概念的高质量图像。其核心技术包括单概念学习和多概念整合,采用多模态编码器、自适应归一化和区域定制化模块,实现高效、精准的图像生成。支持插件式架构,具备良好的扩展性和灵活性,适用于创意设计、广告、教育、电商及科研等多个领域。
InstructMove
InstructMove是由东京大学与Adobe合作开发的图像编辑模型,基于视频帧对变化学习如何根据指令进行图像操作。它能够执行非刚性编辑、视角调整和元素重排等任务,同时支持精确的局部编辑。该模型采用真实视频数据训练,提升编辑自然性与真实性,适用于影视、广告、设计等多个领域。其技术基于多模态语言模型和扩散模型,结合掩码和ControlNet等控制机制,实现灵活高效的图像编辑。
Awesome GPT
一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。
