多模态

IMYAI智能助手

原名ILoveChatGPT,为用户提供丰富的AI服务,使用IMYAI,无需额外工具,即可让您畅享ChatGPT以及Midjourney等AI服务。

NVLM

NVLM是NVIDIA研发的多模态大型语言模型,涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构(NVLM-D、NVLM-X、NVLM-H),并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术,广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

OmniThink

OmniThink是由浙江大学与阿里巴巴通义实验室联合开发的机器写作框架,通过模拟人类学习和反思机制,提升文章的知识密度与深度。支持多种语言模型,具备信息树与概念池结构化管理功能,适用于学术写作、新闻报道、教育内容创作等多个领域,有效提高生成内容的质量与多样性。

奇妙问

奇妙问平台通过提供一站式的交互数字人解决方案,帮助企业在不同行业场景下实现数字化转型,提升服务效率和客户满意度。

魔搭GPT

魔搭社区ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型,结合自回归与扩散模型优势,实现高效图像理解和生成。基于CLIP语义特征,支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略,提升模型性能。完全开源,适用于创意设计、视觉问答、艺术生成等多种场景。

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型,具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序,并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异,适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

Neural4D 2o

Neural4D 2o 是一款基于多模态数据训练的 3D 大模型,支持文本、图像、3D 和运动数据输入,实现高精度的 3D 内容生成与编辑。具备上下文一致性、角色身份保持、换装和风格迁移等功能,支持自然语言指令操作。采用 Transformer 编码器与 3D DiT 解码器架构,原生兼容 MCP 协议,提升创作效率与交互体验,适用于 3D 内容创作、游戏开发、影视动画等多个领域。

京点点

京点点是京东零售技术推出的AI内容生成平台,专为电商场景设计,支持商品图片、营销文案等多模态内容的高效生成。基于DiT框架、Flow Matching等先进技术,平台可精准提取商品信息并生成高质量素材,适用于多种电商场景。面向京东商家、合作伙伴及内部员工开放,助力提升内容生产效率与质量。

GPTder

通过GPTder发现和使用GPTs插件。任何人都可以轻松构建自己的GPT。使用GPTs连接到世界。