深度学习

DynamicCity

DynamicCity是由上海AI Lab开发的大规模动态场景生成框架,支持高质量4D LiDAR场景的生成与重建,适用于自动驾驶、机器人导航、虚拟现实等多个领域。该框架基于VAE和DiT模型,实现高效的场景编码与生成,支持轨迹引导、指令驱动生成和动态修复等多种应用,展现出优异的性能和广泛的应用潜力。

Phantom

Phantom是由字节跳动研发的视频生成框架,支持从参考图像中提取主体并生成符合文本描述的视频内容。它采用跨模态对齐技术,结合文本和图像提示,实现高质量、主体一致的视频生成。支持多主体交互、身份保留等功能,适用于虚拟试穿、数字人生成、广告制作等多种场景。模型基于文本-图像-视频三元组数据训练,具备强大的跨模态理解和生成能力。

HealthGPT

HealthGPT是由多家高校与企业联合开发的医学视觉语言模型,支持医学图像分析、视觉问答、文本生成及多模态融合等任务。其核心技术包括异构低秩适应(H-LoRA)、分层视觉感知(HVP)和三阶段学习策略(TLS),可高效处理复杂医疗数据。模型适用于医学诊断、教育、研究及健康管理等多个场景,具有良好的适应性和实用性。

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型,支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项,适用于不同场景。其基于开源框架开发,易于扩展,可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

BioEmu

BioEmu是由微软研究院开发的生成式深度学习系统,用于高效模拟蛋白质的动态结构和平衡态构象。它能在单个GPU上每小时生成数千种蛋白质结构样本,误差控制在1 kcal/mol以内,支持功能构象变化模拟和热力学性质预测。该工具适用于科学研究、药物开发、个性化医疗等多个领域,显著提升蛋白质结构模拟的效率和精度,为生物医学研究提供强大计算支持。

Evo 2

Evo 2 是一款基于 StripedHyena 2 架构的 DNA 语言模型,可处理长达 100 万个碱基对的基因序列,支持长序列建模、DNA 生成、嵌入向量提取及零样本预测等功能。其基于大规模基因组数据训练,适用于基因治疗、合成生物学和进化研究等多个领域,为基因组学研究提供强大支持。

BioMedGPT

BioMedGPT-R1是由清华大学AI产业研究院与北京水木分子生物科技联合开发的多模态生物医药开源大模型。基于DeepSeek R1技术,实现生物模态(如分子、蛋白质)与自然语言的统一融合,支持跨模态问答与深度推理。该模型在药物分子理解、靶点挖掘等领域表现优异,适用于药物设计、临床前研究及医学文本分析等多种场景,具备较高的文本推理能力和多模态处理能力。

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核,针对 NVIDIA Hopper 架构 GPU 优化,提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度,内存带宽达 3000 GB/s,算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务,具备高性能与低延迟特性,支持快速部署与性能验证。

PixVerse V4

PixVerse V4 是一款基于 AI 的视频生成工具,支持通过文本或图片快速生成高质量视频,最快仅需 5 秒。具备音效生成、人声配音、视频风格转换等功能,适用于多种创作场景。其在语义理解、物理表现和特效处理方面有显著提升,适合个人创作、广告营销、教育及影视娱乐等领域使用。

DeepEP

DeepEP 是 DeepSeek 开发的开源 EP 通信库,专为混合专家模型(MoE)的训练和推理设计。它提供高吞吐、低延迟的 GPU 内核,支持 NVLink 和 RDMA 通信,优化了组限制门控算法,兼容 FP8 等低精度数据格式。适用于大规模模型训练、推理解码及高性能计算场景,具有良好的系统兼容性和网络优化能力。