R - 智狐AI导航

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 718 浏览

Jamba

Jamba是由AI21 Labs开发的基于Mamba架构的生产级别大语言模型，结合了结构化状态空间模型（SSM）和传统Transformer架构，具备高吞吐量和低内存占用的特点。Jamba拥有256K的上下文窗口，适用于处理长文本序列，并且以开放权重的形式发布，遵循Apache 2.0开源许可。该模型主要用于研究领域，未来将推出更安全的版本。

AI项目与工具 2024年01月01日 29 点赞 0 评论 546 浏览

OpenELM

OpenELM是苹果公司推出的一系列高效开源语言模型，涵盖从2.7亿到30亿参数规模的不同版本。该模型基于Transformer架构，采用层间缩放策略优化参数分配，使用分组查询注意力（GQA）和SwiGLU激活函数等技术。OpenELM在公共数据集上预训练，并在多项自然语言处理任务中展现出色性能。模型代码和预训练权重已公开，旨在促进开放研究和社区发展。

AI项目与工具 2024年01月01日 99 点赞 0 评论 965 浏览

IDM

IDM-VTON是一种基于改进扩散模型的先进AI虚拟试穿技术，由韩国科学技术院和OMNIOUS.AI的研究人员共同开发。该技术利用视觉编码器提取服装的高级语义信息，并通过GarmentNet捕捉服装的低级细节特征，从而生成逼真的人物穿戴图像。IDM-VTON支持文本提示理解，实现了个性化定制和逼真的试穿效果，广泛应用于电子商务、时尚零售、个性化推荐、社交媒体以及时尚设计等领域。

AI项目与工具 2024年01月01日 49 点赞 0 评论 672 浏览

Veo是Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容。Veo具备深入的自然语言理解能力，能够准确解析用户的文本提示，生成高质量、高分辨率的视频。其主要功能包括高分辨率视频输出、自然语言处理、风格适应性、创意控制与定制、遮罩编辑功能、参考图像与风格应用、视频片段的剪辑与扩展以及视觉连贯性。Veo技术目前仍处于实验阶段，但已在电影制作

AI项目与工具 2024年01月01日 34 点赞 0 评论 631 浏览