模型

ACE

ACE是一款基于扩散Transformer架构的多模态图像生成与编辑工具,通过长上下文条件单元(LCU)和统一条件格式实现自然语言指令的理解与执行。它支持图像生成、编辑、多轮交互等多种任务,适用于艺术创作、媒体制作、广告设计、教育培训等多个领域,提供高效且灵活的视觉内容解决方案。

Loopy AI

字节跳动和浙江大学联合开发的音频驱动的AI视频生成模型,能够将静态图像转化为动态视频,实现音频与面部表情、头部动作的完美同步。

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

AgentGen

AgentGen是一款由香港大学与微软联合研发的AI项目框架,旨在通过自动生成多样化环境和任务,显著提升大语言模型(LLM)的规划能力。其核心技术包括环境生成、任务生成和动态难度调节,支持零样本生成和指令微调,适用于机器人控制、智能家居等多个领域。

Wren AI

Wren AI 是一个开源的文本到 SQL 工具,基于自然语言处理技术,允许用户通过自然语言提问来执行数据库查询,无需编写 SQL 代码。它支持多种数据库和数据源,具有语义理解能力,能准确解析业务上下文并提供精确的结果。Wren AI 的核心功能包括语义引擎、向量数据库和大型语言模型,支持数据集成、安全性和结果导出,广泛应用于业务智能分析、数据探索、报告生成等领域。

FluxSR

FluxSR是一种基于单步扩散模型的图像超分辨率工具,由多所高校与研究机构联合开发。它通过流轨迹蒸馏技术,将多步模型压缩为单步模型,实现高效且高质量的图像增强。采用TV-LPIPS感知损失和注意力多样化损失,有效提升图像细节并减少伪影。适用于老照片修复、影视制作、医学影像增强等多个领域,具备高性能与低计算成本优势。

Vidgo AI

一个多合一AI图像、音乐和视频生成器,能将文字、图片等素材变成图像、音乐和视频等多媒体内容。提供AI 图像生成、视频生成和编辑三大核心功能。

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是一个开源 AI 工具,用于在 WhatsApp 上构建智能代理。支持多代理架构、多模态交互及持久化对话状态,集成多种语言模型,提供安全可靠的通信环境。适用于客户服务、信息推送、教育辅导等多个场景,便于开发者快速构建和部署高效的 WhatsApp 机器人。

PartEdit

PartEdit是一种基于预训练扩散模型的细粒度图像编辑工具,通过优化部分标记实现对图像对象各部分的精准定位与编辑。其采用非二进制掩码和自适应阈值策略,确保编辑内容自然融合,保留原始细节。支持真实图像和多部分同时编辑,无需重新训练模型,适用于艺术设计、影视制作、广告等多个领域。