蒸馏
DistilQwen2
DistilQwen2 是一款基于 Qwen2 大模型优化的轻量级语言模型,通过知识蒸馏技术提高运算效率并降低部署成本。其主要特点包括增强指令遵循能力、轻量级部署、高效运算及多语言支持。DistilQwen2 在知识蒸馏、任务感知课程规划、指令数据优化等方面进行了深入研究,并广泛应用于移动设备、边缘计算、客户服务、内容创作和教育技术等领域。
DeepSeek R1
DeepSeek R1-Zero 是一款基于纯强化学习训练的推理模型,无需监督微调即可实现高效推理。在 AIME 2024 竞赛中 Pass@1 分数达到 71.0%,展现强大逻辑与数学推理能力。支持长上下文处理,具备自我进化、多任务泛化等特性,并通过开源和蒸馏技术推动模型应用与优化。
Amazon Nova Premier
Amazon Nova Premier 是亚马逊推出的多模态 AI 模型,支持文本、图像和视频输入,具备超长上下文处理能力(最高达 100 万 token),适用于复杂任务处理、多步骤规划与跨数据源执行。可通过模型蒸馏生成轻量级版本,优化生产部署。支持多语言,具备安全控制机制,广泛应用于金融、法律、软件开发等领域。
