模型

UNO

UNO是字节跳动推出的AI图像生成框架,支持单主体和多主体图像生成,解决多主体一致性难题。采用扩散变换器和渐进式跨模态对齐技术,结合通用旋转位置嵌入(UnoPE),实现高一致性与可控性。适用于虚拟试穿、产品设计、创意设计等多个领域,具备强大泛化能力,已开源并提供完整技术文档。

AgentPrune

AgentPrune 是一种针对大型语言模型驱动的多智能体系统的通信优化框架,通过“剪枝”技术减少冗余通信内容,降低通信成本并提升系统性能。其核心技术包括时空图建模、低秩稀疏图掩码和一次性剪枝,可在 AutoGen 和 GPTSwarm 等框架中无缝集成,实现高达 72.8% 的 token 减少。同时具备对抗攻击防御能力,适用于复杂任务协作和工业级应用。

明岐

明岐是上海交通大学LoCCS实验室开发的医学多模态大模型,专注于罕见病精准诊断。它整合影像、病历与化验数据,采用双引擎架构实现高精度、可解释的诊断,准确率超92%。通过模型优化技术,支持低成本本地化部署,适用于基层医疗、远程服务及科研教学,助力医疗资源均衡发展。

日日新SenseNova V6

日日新SenseNova V6是商汤科技推出的第六代多模态大模型,基于6000亿参数架构,支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力,适用于视频分析、教育辅导、智能客服、具身智能等多个领域,提升交互体验与内容处理效率。

BrowseComp

BrowseComp 是 OpenAI 开源的 AI 浏览能力评估基准,包含 1266 个高难度问题,覆盖多个领域。它要求 AI 代理进行多步骤推理和跨网站信息整合,测试其搜索、分析和适应能力。Deep Research 模型在其中表现优异,准确率达 51.5%。该工具适用于企业知识库、电商导购、政府服务及 AI 研究等领域,推动智能浏览技术发展。

FantasyTalking

FantasyTalking是一种由阿里巴巴AMAP团队与北京邮电大学联合开发的AI工具,能够从静态肖像生成高质量、可动画化的虚拟形象。该工具采用双阶段视听对齐策略,结合面部专注的交叉注意力模块和运动强度调制模块,实现精准口型同步、丰富表情生成及全身动作控制。支持多种风格和姿态,适用于游戏、影视、VR/AR、虚拟主播及教育等领域。

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高性能 AI 模型,具备低延迟、高效率及推理能力,适用于代码生成、智能代理和复杂任务处理。其优化设计降低了计算成本,适合大规模部署。该模型基于 Transformer 架构,结合推理机制和模型压缩技术,提升了响应速度与准确性,广泛应用于智能开发、内容生成和实时交互等领域。

LocAgent

LocAgent是一款由多所高校联合开发的代码定位工具,通过构建代码库的图结构并结合大语言模型进行多跳推理,帮助开发者快速找到需修改的代码片段。支持多种开发任务,如错误修复、功能添加和性能优化,具备高效的搜索与定位能力,适用于大规模代码维护场景。

DCEdit

DCEdit是一款基于双层控制机制的图像编辑工具,结合精确语义定位策略与视觉、文本自注意力优化,提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型,支持复杂场景下的精细编辑任务,如对象替换、颜色调整等,适用于广告、影视、社交媒体等多个领域。