学习

HUGWBC

HUGWBC是由上海交通大学与上海AI Lab联合开发的人形机器人全身控制器,支持多种自然步态和精细参数调整,具备高鲁棒性和实时外部干预能力。基于强化学习和不对称训练框架,实现从模拟到现实的高效迁移,适用于复杂地形导航、动态任务执行及人机协作等多种场景。

GPT-SoVITS

一个强大的语音合成工具,特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换,支持多种语言,并提供了易于使用的WebUI工具。

TryOffAnyone

TryOffAnyone是一款基于Latent Diffusion Models技术的AI工具,专注于从人物照片中提取服装区域并生成平铺展示图。它具备在线图片处理、智能服装识别、背景去除和图像优化等功能,广泛应用于电商平台的商品展示、个性化推荐、库存管理和图像检索等领域,帮助提升用户体验和运营效率。

Wisdolia AI

Wisdolia一个Chrome扩展程序,它使用 AI 为任何文章/PDF 生成抽认卡,以便您可以更好地记住您阅读的内容。

APB

APB是一种由清华大学等机构开发的分布式长上下文推理框架,通过稀疏注意力机制和序列并行推理提升大模型处理长文本的效率。采用更小的Anchor Block和Passing Block,结合查询感知的上下文压缩技术,减少计算开销并精准传递关键信息。在128K长度文本上,APB推理速度比Flash Attention快10倍,比Star Attention快1.6倍,适用于多种分布式环境和模型规模,广泛

Motion Dreamer

Motion Dreamer是由香港科技大学(广州)研发的视频生成框架,采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制,支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能,已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器,通过结合局部与全局token,提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息,增强细节感知能力。在多个基准测试中表现优异,尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略,提高模型泛化能力,适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

NSFW Detector

NSFW Detector是一款基于深度学习的开源工具,利用Google的`vit-base-patch16-224-in21k`模型,能够在CPU环境中高效检测图像、PDF、视频及压缩包内的不适宜内容。该工具支持API集成与Docker部署,具备多CPU加速特性,可实现快速且安全的本地化内容分类,广泛应用于社交媒体、内容共享平台、企业网络等多个领域。

Llama 4

Llama 4 是 Meta 推出的多模态 AI 模型系列,采用混合专家(MoE)架构,提升计算效率。包含 Scout 和 Maverick 两个版本,分别适用于不同场景。Scout 支持 1000 万 token 上下文,Maverick 在图像理解和创意写作方面表现优异。Llama 4 支持 200 种语言,具备强大的语言生成与多模态处理能力,适用于对话系统、文本生成、代码辅助、图像分析等多个