架构

HMA

HMA(Heterogeneous Masked Autoregression)是一种基于异构预训练和掩码自回归技术的机器人动作视频建模方法,支持离散与连续生成模式,可处理不同动作空间的异构性。该工具具备高效实时交互能力,广泛应用于视频模拟、策略评估、合成数据生成及模仿学习等领域,适用于机器人学习与控制任务,提升策略泛化与执行效率。

Janus

Janus是一种由DeepSeek AI开发的自回归框架,专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能,支持多种输入模态如图像、文本等,并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力,适用于图像创作、自动标注、视觉问答等多个领域。

Jan.ai

ChatGPT 的开源、托管替代品,jan.ai可在您的计算机上100%离线运行。

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型,专攻零样本语音编辑和文本到语音(TTS)任务。它采用Transformer架构,通过token重排过程结合因果掩蔽和延迟叠加技术,实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色,适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型,采用大规模稀疏MoE架构,具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式,适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主,性能优于GPT-4o和Claude 3.5 Sonnet等主流模型,且具备成本优势。

Oasis

Oasis是一款依托于AI技术的实时生成游戏,无需依赖传统游戏引擎即可实现每秒20帧的高质量交互式视频内容输出。它支持玩家自由探索开放世界,并通过动态调整机制提供个性化体验。凭借开源特性及硬件优化能力,Oasis展示了AI在内容创作领域的巨大潜力,适用于游戏、教育、虚拟旅游等多个领域。

Etna

是由七火山科技开发的一个平...

程序员盒子CoderUtil

一个程序员的高效工具网址导航网站,程序员盒子网提供自定义快捷网址导航,涵盖技术社区、学习平台、资源推荐等多种功能,目前拥有超过200万的程序员用户群体。

Agent Development Kit

Agent Development Kit(ADK)是谷歌推出的开源AI智能体开发工具,采用Python实现,支持多智能体架构和复杂任务编排。提供丰富的工具生态、灵活的工作流定义、流式交互支持及广泛的LLM兼容性,帮助开发者快速构建、测试和部署AI代理,提升系统效率与可扩展性。

MT

MT-MegatronLM 是摩尔线程推出的开源混合并行训练框架,支持密集模型、多模态模型和 MoE 模型的高效训练。采用 FP8 混合精度、高性能算子库和集合通信库,提升 GPU 集群算力利用率。通过模型并行、数据并行和流水线并行技术,实现大规模语言模型的高效分布式训练,适用于科研、企业及定制化 AI 应用场景。