生成

Codestral

Codestral是由Mistral AI开发的一款代码生成AI模型,支持超过80种编程语言,具备强大的代码补全、生成、测试和文档生成等功能。该模型拥有220亿参数和32k的上下文窗口,性能优越,适用于软件开发中的多种场景,包括代码编写、测试、重构和文档生成等。支持MNPL许可,主要用于非商业用途的研究和测试。

腾讯元器

腾讯元器是一款基于腾讯混元大模型的AI智能体创作与分发平台,提供低代码或无代码的智能体开发环境,覆盖多种业务场景和功能。它通过智能体商店、工作流模式、腾讯生态集成等功能,简化了智能体的创建、部署和分发过程,支持一键分发至腾讯的多平台渠道,适用于客服、教育、金融、法律等多个行业。

Veo

Veo是Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容。Veo具备深入的自然语言理解能力,能够准确解析用户的文本提示,生成高质量、高分辨率的视频。其主要功能包括高分辨率视频输出、自然语言处理、风格适应性、创意控制与定制、遮罩编辑功能、参考图像与风格应用、视频片段的剪辑与扩展以及视觉连贯性。Veo技术目前仍处于实验阶段,但已在电影制作

AniTalker

AniTalker是一款先进的AI工具,能将单张静态人像与音频同步转化为生动的动画对话视频。它通过自监督学习捕捉面部动态,采用通用运动表示和身份解耦技术减少对标记数据的依赖,同时结合扩散模型和方差适配器生成多样且可控的面部动画。AniTalker支持视频驱动和语音驱动两种方式,并具备实时控制动画生成的能力。

PuLID

PuLID是一种由字节跳动团队开发的个性化文本到图像生成技术,主要通过对比对齐和快速采样方法实现高效ID定制。该技术能够生成高度逼真的面部图像,同时保留原始图像的风格元素,支持灵活的个性化编辑。PuLID具有快速出图能力,无需繁琐的模型调整,且与多种现有模型兼容。它适用于艺术创作、虚拟形象定制、影视制作、广告和社交媒体等多个领域。

Stable Artisan

Stable Artisan是一款基于Discord平台的图像和视频生成机器人服务,利用Stability AI的AI技术和模型,如Stable Diffusion 3和Stable Video Diffusion,使用户能够通过自然语言提示生成高质量的图像和视频。此外,它还提供了一系列图像编辑工具,包括搜索替换、背景去除、高清放大、扩展外延、控制素描和结构等功能,适用于创意人士、设计师、内容创作

IDM

IDM-VTON是一种基于改进扩散模型的先进AI虚拟试穿技术,由韩国科学技术院和OMNIOUS.AI的研究人员共同开发。该技术利用视觉编码器提取服装的高级语义信息,并通过GarmentNet捕捉服装的低级细节特征,从而生成逼真的人物穿戴图像。IDM-VTON支持文本提示理解,实现了个性化定制和逼真的试穿效果,广泛应用于电子商务、时尚零售、个性化推荐、社交媒体以及时尚设计等领域。

ID

ID-Animator是一款由腾讯光子工作室、中科大和中科院合肥物质科学研究院联合开发的零样本人类视频生成技术。它能够根据单张参考面部图像生成个性化视频,并根据文本提示调整视频内容。ID-Animator通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现高效的身份保真视频生成。其主要功能包括视频角色修改、年龄和性别调整、身份混合以及与ControlNet等现有条件模块的兼容性。

Arctic

Arctic是一款由云计算公司Snowflake的AI研究团队开发的高效且开源的企业级大型语言模型,拥有480亿参数。该模型采用混合专家模型(MoE)架构,结合了密集变换器(Dense Transformer)和128个专家的特点。Arctic在成本效益、训练效率和推理效率方面具有显著优势,特别适用于企业任务,例如SQL生成、编程和指令遵循。模型基于Apache 2.0许可发布,用户可以自由使用和

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架,通过轨迹分割一致性蒸馏(TSCD)、人类反馈学习(ReFL)和分数蒸馏等技术,显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时,大幅减少了推理步骤,实现了快速生成高分辨率图像,推动了生成式AI技术的发展。