模型

SnapGen

SnapGen是一款由Snap Inc、香港科技大学和墨尔本大学联合开发的文本到图像扩散模型,专为移动设备设计,支持在1.4秒内生成1024×1024像素的高分辨率图像。它通过优化网络架构、跨架构知识蒸馏和对抗性训练等技术,在保持小模型规模的同时,提供了高质量的图像生成能力,适用于社交媒体、移动应用、教育、新闻等多个领域。

CosyVoice 2.0

CosyVoice 2.0是一款基于深度学习的语音生成大模型,通过有限标量量化技术和新型架构设计,在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理,延迟低至150ms,广泛应用于智能助手、有声读物、视频配音及语言学习等领域,同时具备多语言支持和情感控制等功能。

YouMind

YouMind是一款以AI为核心的内容整理与创作平台,支持从多种信息源中提取关键信息并生成创意作品。凭借Anthropic、OpenAI和Meta的顶级语言模型技术支持,它能够提供高效、稳定的服务,同时保障用户隐私安全。无论是学术研究、内容创作还是教育培训,YouMind都能显著提升用户的信息处理能力和创作效率。

Megrez

Megrez-3B-Omni是一款具备全模态理解能力的开源模型,支持图像、音频和文本的综合处理,具备强大的推理效率和多模态交互功能。它能够在多个权威测试集中展现卓越性能,尤其擅长场景理解、OCR识别及语言生成等任务,同时通过智能WebSearch调用增强问题解答能力,适用于个人助理、智能家居、车载系统等多种应用场景。

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型,专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模,广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

Whisk

Whisk是一款基于AI的图像生成工具,由谷歌推出,支持用户通过上传图像并指定主题、场景和风格生成新图像。它具备多图像输入、自动图像提示及额外文字细节添加等功能,基于谷歌最新的Imagen 3模型,适用于艺术创作、广告营销、社交媒体内容生产等多个领域,助力用户高效完成创意设计。

Ruyi

Ruyi是一款基于DiT架构的图生视频大模型,支持多分辨率和多时长的视频生成,具有首帧、首尾帧控制、运动幅度调整及镜头方向控制等功能。它通过Casual VAE模块和Diffusion Transformer实现视频数据的压缩与生成,旨在降低动漫和游戏内容的开发周期和成本。目前,Ruyi-Mini-7B版本已开源。

Large Action Models

Large Action Models(LAMs)是微软开发的一种智能系统框架,专注于执行真实世界任务。它通过整合数据收集、模型训练、环境交互和评估等阶段,将语言理解转化为具体行动,提升了AI在自动化和增强人类能力方面的影响力。LAMs具备动态规划、自主执行和专业化训练等特点,广泛应用于办公自动化、智能家居管理、客户服务、电子商务等领域。 ---

Leffa

Leffa是一种基于注意力机制的可控人物图像生成框架,通过流场学习精确控制人物的外观和姿势。其核心技术包括正则化损失函数、空间一致性及模型无关性,能够在保持细节的同时提升图像质量。Leffa广泛应用于虚拟试穿、增强现实、游戏开发及影视后期制作等领域,展现出卓越的性能与灵活性。