模型

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库,它为广泛的研究任务提供了丰富的数据和高质量的注释。

智川X

智川X-Agent是中科闻歌推出的智能体开发平台,支持零代码构建AI应用,集成多种大模型,具备知识库管理、工作流编排、自定义插件等功能。适用于政务、金融、医疗、媒体等多个行业,帮助企业快速实现AI应用落地与持续优化。

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型,具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成,适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据,并从美学角度进行图像评价,适合需要高效图像处理和智能交互的应用场景。

HoloPart

HoloPart 是一种基于扩散模型的 3D 分割工具,能准确识别并补全被遮挡的语义部件,支持几何与材质编辑等任务。其两阶段方法结合局部与全局注意力机制,提升分割精度与一致性。适用于动画制作、几何优化及数据生成等领域,已在多个数据集上取得优异性能。

FantasyTalking

FantasyTalking是一种由阿里巴巴AMAP团队与北京邮电大学联合开发的AI工具,能够从静态肖像生成高质量、可动画化的虚拟形象。该工具采用双阶段视听对齐策略,结合面部专注的交叉注意力模块和运动强度调制模块,实现精准口型同步、丰富表情生成及全身动作控制。支持多种风格和姿态,适用于游戏、影视、VR/AR、虚拟主播及教育等领域。

ID

ID-Animator是一款由腾讯光子工作室、中科大和中科院合肥物质科学研究院联合开发的零样本人类视频生成技术。它能够根据单张参考面部图像生成个性化视频,并根据文本提示调整视频内容。ID-Animator通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现高效的身份保真视频生成。其主要功能包括视频角色修改、年龄和性别调整、身份混合以及与ControlNet等现有条件模块的兼容性。

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型,支持 119 种语言,参数规模从 0.6B 到 8B。它能够精准捕捉文本语义,支持多语言处理、高效检索和语义相关性排序,并可通过个性化优化提升用户体验。在 MTEB 等任务中表现优异,适用于智能搜索、推荐系统、问答系统和教育领域等场景。

Awesome GPT

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。

AutoConsis

AutoConsis是一款基于深度学习和大型语言模型的UI内容一致性智能检测工具,能够自动识别和提取界面中的关键数据,并对数据一致性进行高效校验。它支持多业务场景适配,具备高泛化性和高置信度,广泛应用于电商、金融、旅游等多个领域,助力提升用户体验和系统可靠性。

MMRole

MMRole是一个由中国人民大学高瓴人工智能学院研究团队开发的多模态角色扮演智能体(MRPA)框架。该框架通过整合图像和文本,使智能体能够以特定角色进行更为自然和沉浸式的对话。MMRole框架包括一个大规模、高质量的多模态数据集和一个全面的评估方法,用于开发和评估MRPAs的性能。该框架为创建能够理解和生成与图像相关对话内容的智能体提供了新的可能,并扩展了其在教育、娱乐、客户服务、社交模拟和内容创