模型

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。

Xiaomi MiMo

Xiaomi MiMo 是小米推出的推理型大模型,具备强大的数学推理与代码生成能力。通过预训练与后训练相结合,利用大量高价值语料及强化学习算法,在 7B 参数规模下实现超越更大模型的表现。支持多场景应用,包括教育、科研、软件开发等,已开源至 HuggingFace,便于开发者使用与研究。

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型,支持40种语言及22种中文方言,具备高精度语音转文字能力。采用CTC-Attention架构,结合E-Branchformer和Transformer技术,提升识别效率与准确性。模型开源,支持自定义语言与地区设置,适用于会议记录、语音输入、智能助手等多种场景。

Edicho

Edicho 是一种基于扩散模型的图像编辑工具,能够在多图像间实现一致性编辑,无需额外训练。其核心技术包括 Corr-Attention 注意力模块和 Corr-CFG 去噪策略,通过显式图像对应关系提升编辑质量与一致性。适用于图像修复、风格转换、内容创作、医学影像增强等场景,具备良好的兼容性与扩展性。

博查AI搜索

国内首个多模型AI搜索引擎,它基于大模型和实时搜索技术,能够理解自然语言提问,并细分检索直接生成准确的答案。

PixArt

PixArt-Σ是一款基于扩散Transformer架构(DiT)的文本生成图像模型,专为生成高达4K分辨率的高质量图像而设计。该模型通过整合高级元素并采用从弱到强的训练方法,不仅提升了生成图像的保真度,还增强了图像与文本提示之间的对齐效果。PixArt-Σ的生成图像在美学质量上可媲美当前顶级的文本到图像产品,并且在遵循文本提示方面表现出色。主要功能包括4K分辨率图像生成、高保真转换、高效率训练和

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架,通过强化学习技术提升搜索能力,无需依赖真实搜索引擎。它能动态生成相关或噪声文档,显著降低训练成本(超80%),并支持多种模型和算法,适用于问答、内容创作、教育等多个场景。

Vid2World

Vid2World是由清华大学和重庆大学联合开发的创新框架,能够将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。该模型基于视频扩散因果化和因果动作引导两大核心技术,解决了传统VDM在因果生成和动作条件化方面的不足。Vid2World支持高保真视频生成、动作条件化、自回归生成和因果推理,适用于机器人操作、游戏模拟等复杂环境,具有广泛的应用前景。

智谱清言

智谱清言AI助手基于智谱 AI 自主研发的中英双语对话模型 ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务。