深度学习

DeepFaceLive

DeepFaceLive是一款基于人工智能的面部合成技术,它可以将一个人的面部表情和动作合成到另一个人的脸上,从而实现非常逼真的面部合成效果。

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型,专注于将美国手语(ASL)实时翻译成英语文本。通过多模态训练方法,结合视觉和文本数据,实现高准确率和低延迟的翻译,响应时间低于0.5秒。支持端侧部署,保护用户隐私,适用于教育、医疗和公共服务等场景。

Tingo.ai

用户能够根据自己的喜好创建和互动一个AI女友。这个工具以其定制化选项、深度学习能力和灵活的互动功能为主要特点,为用户提供了一个可以进行情感交流和个性化互动的虚拟伴侣。

Emu3

Emu3是一款由北京智源人工智能研究院开发的原生多模态世界模型,结合了多模态自回归技术和单一Transformer架构,能够在图像、视频和文本之间实现无缝转换。它不仅能够根据文本生成高质量图像,还能预测视频发展并理解图文内容,广泛应用于内容创作、广告营销、教育、娱乐等多个领域。

DianJin

DianJin-R1是由阿里云与苏州大学联合开发的金融领域推理增强型大模型,基于CFLUE、FinQA和CCC等高质量数据集训练,通过监督微调和强化学习优化,提升金融任务的推理能力。模型支持结构化输出,具备高效推理与低计算成本优势,在合规检查、金融问答、考试辅助等领域表现优异,适用于多种金融应用场景。

OCTAVE

OCTAVE是一款由Hume AI研发的语音语言处理工具,融合了多种领先AI技术,具备强大的个性化语音生成能力,支持从文字到语音的即时转化,并能精准模仿不同说话者的声线与情感表达。其主要功能包括多角色对话生成、复杂指令理解与响应,以及实时语音处理等。此外,OCTAVE可应用于客户服务、虚拟助手、教育培训、娱乐游戏等多个领域,为用户带来更加自然、生动的交互体验。

ImageRAG

ImageRAG 是一种基于检索增强生成(RAG)技术的图像生成工具,通过动态检索相关图像提升文本到图像模型的生成能力。它能够增强对罕见概念的理解与生成,提升图像的真实度和相关性,支持多模态生成与个性化定制。无需额外训练即可适配多种 T2I 模型,广泛应用于创意设计、品牌推广、教育及影视等领域。

MultiBooth

MultiBooth是一种由多所高校和研究机构联合开发的多概念图像生成工具,能够根据文本提示生成包含多个指定概念的高质量图像。其核心技术包括单概念学习和多概念整合,采用多模态编码器、自适应归一化和区域定制化模块,实现高效、精准的图像生成。支持插件式架构,具备良好的扩展性和灵活性,适用于创意设计、广告、教育、电商及科研等多个领域。

MARS

MARS是一款由字节跳动开发的优化框架,专注于提升大型模型训练效率。它融合了预条件梯度方法与方差减少技术,并通过缩放随机递归动量技术优化梯度估计。MARS支持多种Hessian近似方式,可生成基于AdamW、Lion和Shampoo的优化算法实例。该框架适用于深度神经网络、大规模语言模型、计算机视觉任务及强化学习等领域,能有效加速模型收敛并提高训练稳定性。