模型

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架,基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能,具有高效处理能力(单张图像约9秒)。采用LoRA-MoE混合微调策略,降低资源需求,适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验,便于研究与应用。

Amazon Nova Premier

Amazon Nova Premier 是亚马逊推出的多模态 AI 模型,支持文本、图像和视频输入,具备超长上下文处理能力(最高达 100 万 token),适用于复杂任务处理、多步骤规划与跨数据源执行。可通过模型蒸馏生成轻量级版本,优化生产部署。支持多语言,具备安全控制机制,广泛应用于金融、法律、软件开发等领域。

VPP

VPP(Video Prediction Policy)是清华大学与星动纪元联合开发的AIGC机器人模型,基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习,显著降低对真实数据的依赖。在复杂任务中表现出色,适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型,具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序,并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异,适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型,具备高效计算能力和紧凑结构,支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构,结合高效与精准优势,支持无位置编码(NoPE)处理128K tokens上下文。内存需求降低72%,推理时仅激活1B参数,适用于边缘设备部署、长文本分析及企业级应用开发,适合资源受限环境下的AI研究与

NoteLLM

NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架,支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术,提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制,增强视觉信息处理能力,适用于个性化推荐、冷启动优化及内容创作辅助等场景。

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

Voila

Voila是一款开源的端到端语音大模型,支持实时语音交互与多轮对话,具备高保真、低延迟的音频处理能力。集成语音与语言建模功能,支持百万级预设声音及个性化定制,适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构,提升语音理解与生成质量,降低开发成本,提高通用性与灵活性。

ReasonIR

ReasonIR-8B 是由 Meta AI 开发的推理密集型检索模型,基于 LLaMA3.1-8B 训练,采用双编码器架构,提升复杂查询处理能力。结合合成数据生成工具,增强模型在长上下文和抽象问题中的表现。在多个基准测试中表现优异,适用于问答系统、教育、企业知识管理和科研等领域。

3DV

3DV-TON是一种基于扩散模型的视频虚拟试穿框架,由阿里巴巴达摩院、湖畔实验室与浙江大学联合研发。该工具通过生成可动画化的纹理化3D网格作为帧级指导,提升试穿视频的视觉质量和时间一致性。其支持复杂服装图案和多样化人体姿态,提供高分辨率基准数据集HR-VVT,适用于在线购物、时尚设计、影视制作等多个领域。