生成

吐司AI LOGO

吐司AI LOGO是一款基于AI技术的插图LOGO生成工具,支持文生图、图生图等多种模式,提供模型管理、参数调节及多主题切换等功能。用户可通过文字描述生成个性化LOGO,适用于品牌设计、艺术创作及产品开发等多个场景,具备高效、灵活和易用的特点。

Caricaturer

Caricaturer是一款利用深度学习技术的在线AI漫画头像生成工具,能将用户上传的照片转换为64种不同风格的漫画效果。它具备快速生成、高分辨率输出及隐私保护等特点,适用于个人娱乐、艺术创作、企业营销等多个场景。

WorldPM

WorldPM是由阿里巴巴Qwen团队与复旦大学联合开发的偏好建模模型系列,基于1500万条数据训练,适用于对话系统、推荐系统等任务。模型支持多种微调版本,具备强大的泛化能力和鲁棒性,适用于低资源和高规模场景。支持Hugging Face平台部署,适用于语言生成优化、个性化推荐、智能客服及内容审核等应用场景。

HiDiffusion

大幅提升扩散模型的图像生成质速度提升6倍,由字节跳动的研究团队开发,只需添加一行代码即可

ImagePulse

ImagePulse是由魔搭社区推出的开源项目,专注于图像理解和生成模型的数据集支持。它通过将复杂任务拆解为“修改、添加、移除”“风格迁移”“人脸保持”等原子能力,构建专门的数据集,提升模型在特定任务上的性能。项目提供开源脚本,支持数据集的生成与扩展,并结合多种技术资源实现多模型协同,适用于艺术创作、视频制作、产品展示等多个领域。

Hallo2

Hallo2是一款由复旦大学、百度公司和南京大学合作开发的音频驱动视频生成模型。它能够将单张图片与音频结合,并通过文本提示调节表情,生成高分辨率4K视频。Hallo2采用了补丁下降、高斯噪声等数据增强技术,提升了视频的视觉一致性和时间连贯性,同时通过语义文本标签提高了生成内容的可控性与多样性。该模型适用于电影、游戏、虚拟助手等多个领域,展现出强大的内容生成能力。

GameNGen

GameNGen是谷歌推出的一款AI游戏引擎,它能够以每秒20帧的速度实时生成高质量的DOOM游戏画面,使大多数玩家难以分辨真假。该工具无需编程,简化了开发流程,同时具备高逼真度和交互式体验,为游戏创作提供了新的可能性。除了游戏开发,它还能应用于虚拟现实、自动驾驶等多个领域,具有广泛的应用前景。

Step-1V

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

PipiGPT

通过AI技术自动识别图片内容并一键生成文案,发布在朋友圈、小红书等社交平台上。