机器学习

COMET

COMET是字节跳动开发的Mixture-of-Experts(MoE)模型优化系统,通过细粒度计算-通信重叠技术和自适应负载分配机制,显著提升分布式训练效率。它在大规模模型中实现单层1.96倍、端到端1.71倍的加速,具备强鲁棒性与泛化能力,支持多种硬件环境和并行策略,核心代码已开源并可无缝集成至主流训练框架。

ChatTS

ChatTS-14B 是一款由字节跳动开发的大型语言模型,专为时间序列数据的理解与推理设计,具备 140 亿参数规模。通过合成数据对齐技术提升任务表现,支持自然语言交互,可应用于金融、气象、工业、医疗和运维等多个场景,提供数据分析、预测与诊断功能。模型已开源,便于开发者使用和扩展。

GPT-SoVITS

一个强大的语音合成工具,特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换,支持多种语言,并提供了易于使用的WebUI工具。

HumanRig

HumanRig是由阿里巴巴团队研发的3D人形角色自动绑定系统,提供大规模高质量数据集和先进算法,支持从粗到细的骨架估计与蒙皮优化。其核心组件包括先验引导骨架估计器(PGSE)和网格-骨架互注意网络(MSMAN),适用于游戏开发、影视制作、VR/AR及数字人应用,有效提升3D角色动画制作效率和质量。

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型,采用视觉-动作自回归Transformer架构,实现高保真、可控性强的场景生成。通过并行解码算法,模型可在每秒4至7帧的速度下实现实时交互,适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

Grok 3

Grok 3是由马斯克旗下xAI推出的最新AI模型,具备强大的推理能力和多模态处理功能。采用“思维链”技术,支持复杂任务的逐步分析,提升逻辑准确性。模型参数量达1.2万亿,基于10万块H100 GPU训练,性能在多个基准测试中超越同类产品。适用于自动驾驶、医疗、教育、客服及营销等多个领域,提供高效智能解决方案。

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的开源工具,用于研究大型语言模型的内部工作机制。它通过生成归因图揭示模型在生成特定输出时的决策路径,帮助研究人员追踪模型的决策过程、可视化特征关系并测试假设。支持多种主流模型如 Gemma 和 Llama,提供交互式可视化界面,便于探索和分析模型行为。其功能包括生成归因图、可视化与交互、模型干预以及支持多种模型。

智谱AI绘画

智谱AI绘画可根据用户的描述创作出新的艺术作品,还能够模仿不同的艺术风格,提供个性化的图像编辑和创作服务

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用,支持在 Android 设备上本地运行机器学习和生成式人工智能模型,无需联网。用户可切换不同模型,进行图像问答、文本生成、多轮对话等操作,并实时查看性能指标。应用支持自带模型测试,提供丰富的开发者资源,助力探索设备端 AI 的强大功能。

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。