SigStyle SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架,能将单张风格图像的视觉特征(如几何结构、色彩和笔触)精准迁移到目标图像,同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型,结合超网络和时间感知注意力交换技术,实现高效且高质量的风格迁移。支持多种应用场景,如艺术创作、时尚设计、影视制作等,具备灵活性和广泛适用性。 AI项目与工具 2025年06月12日 63 点赞 0 评论 863 浏览
FlexiAct FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型,可在空间结构差异较大的场景下实现精准动作迁移,并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取(FAE),有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域,具有良好的应用前景。 AI项目与工具 2025年06月11日 39 点赞 0 评论 862 浏览
DeepGEMM DeepGEMM是DeepSeek开发的高效FP8矩阵乘法库,专为NVIDIA Hopper架构优化,支持普通与分组GEMM操作。采用即时编译技术,实现运行时动态优化,提升计算性能与精度。通过细粒度缩放和双级累加技术解决FP8精度问题,结合TMA特性提升数据传输效率。代码简洁,仅约300行,适用于大规模AI推理、MoE模型优化及高性能计算场景。 AI项目与工具 2025年06月12日 61 点赞 0 评论 862 浏览
Etna模型 一个文字转视频的AIGC模型,Etna能够根据简短的文本描述生成相应的视频内容,支持生成时长为8-15秒的视频,且视频流畅度极高,每秒可达60帧。 Ai视频生成 2025年06月05日 28 点赞 0 评论 862 浏览
书生·浦语 书生·浦语是上海人工智能实验室开发的一款开源AI大模型,具备卓越的推理能力和超长文本处理功能。该模型能够处理高达一百万词元的文本输入,支持联网搜索并整合信息,显著提升了处理复杂问题的能力。书生·浦语秉持开源理念,免费提供商用授权,旨在通过高质量开源资源赋能创新,推动AI技术的发展和应用。它支持多种功能,包括超长文本处理、增强推理能力、自主信息搜索与整合等,并提供了多样化的参数版本,以满足不同的应用 AI项目与工具 2025年06月12日 62 点赞 0 评论 861 浏览
Goku Goku是由香港大学与字节跳动联合开发的AI视频生成模型,支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本,专注于广告视频创作,具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构,适用于广告、教育、娱乐等多个领域,提升了内容创作效率与质量。 AI项目与工具 2025年02月11日 29 点赞 0 评论 861 浏览
COMET COMET是字节跳动开发的Mixture-of-Experts(MoE)模型优化系统,通过细粒度计算-通信重叠技术和自适应负载分配机制,显著提升分布式训练效率。它在大规模模型中实现单层1.96倍、端到端1.71倍的加速,具备强鲁棒性与泛化能力,支持多种硬件环境和并行策略,核心代码已开源并可无缝集成至主流训练框架。 AI项目与工具 2025年06月12日 12 点赞 0 评论 861 浏览
VALL-E VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为... Ai平台模型 2026年06月21日 0 点赞 0 评论 861 浏览
通义千问AI大模型 通义千问大模型AI开放平台,覆盖语言、听觉、多模态等领域;致力于实现接近人类智慧的通用智能,让AI从“单一感官”到“五官全开” Ai平台模型 2025年06月05日 18 点赞 0 评论 861 浏览