多模态 - 智狐AI导航

京点点

京点点是京东零售技术推出的AI内容生成平台，专为电商场景设计，支持商品图片、营销文案等多模态内容的高效生成。基于DiT框架、Flow Matching等先进技术，平台可精准提取商品信息并生成高质量素材，适用于多种电商场景。面向京东商家、合作伙伴及内部员工开放，助力提升内容生产效率与质量。

AI项目与工具 2025年06月12日 82 点赞 0 评论 577 浏览

GPTder

通过GPTder发现和使用GPTs插件。任何人都可以轻松构建自己的GPT。使用GPTs连接到世界。

GPTs应用 2025年06月05日 67 点赞 0 评论 577 浏览

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型，具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序，并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异，适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

AI项目与工具 2025年06月11日 75 点赞 0 评论 575 浏览

Neural4D 2o

Neural4D 2o 是一款基于多模态数据训练的 3D 大模型，支持文本、图像、3D 和运动数据输入，实现高精度的 3D 内容生成与编辑。具备上下文一致性、角色身份保持、换装和风格迁移等功能，支持自然语言指令操作。采用 Transformer 编码器与 3D DiT 解码器架构，原生兼容 MCP 协议，提升创作效率与交互体验，适用于 3D 内容创作、游戏开发、影视动画等多个领域。

AI项目与工具 2025年06月11日 50 点赞 0 评论 575 浏览

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型，结合自回归与扩散模型优势，实现高效图像理解和生成。基于CLIP语义特征，支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略，提升模型性能。完全开源，适用于创意设计、视觉问答、艺术生成等多种场景。

AI项目与工具 2025年06月11日 12 点赞 0 评论 573 浏览

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 571 浏览