生成

DiffBrush

DiffBrush是由多所高校与研究机构联合开发的图像生成与编辑工具,支持用户通过手绘草图直接控制图像生成过程。其核心技术包括颜色引导、实例与语义控制、潜在空间再生等,兼容多种主流T2I模型,如Stable Diffusion、SDXL等,并支持LoRA风格调整。该工具简化了AI绘画流程,提升了图像生成的精度与灵活性,适用于创意绘画、图像编辑、教育、游戏设计等多个领域。

GPTExcel

GPTExcel 是一款基于AI的电子表格辅助工具,支持公式生成、自动化脚本编写、SQL查询生成等功能,简化复杂数据处理流程。它提供详细解释,帮助用户理解和应用生成内容,并支持表格模板创建、数据可视化和正则表达式生成,适用于多种应用场景,如财务、数据分析和人力资源管理。

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架,通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间,使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本,提升视觉生成与理解性能,并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用,适用于创意设计、内容创作及智能交互等领域。

BuzzClip

BuzzClip 是一款基于人工智能的视频生成工具,专注于帮助用户在短时间内高效制作适合 TikTok 等平台的短视频内容。平台提供超过 100 个 AI 虚拟形象、多种预设模板及多语言支持,适用于品牌推广、产品展示和社交媒体运营等多种场景。用户可直接发布视频并进行品牌定制,具备完整的商业使用权和基础数据分析功能,提升内容创作效率与传播效果。

AVD2

AVD2是由多所高校联合开发的自动驾驶事故视频理解框架,通过生成高质量事故视频并结合自然语言描述与推理,提升对复杂事故场景的理解能力。其功能涵盖事故视频生成、原因分析、预防建议及数据集增强,支持自动驾驶系统的安全优化与研究。基于先进模型如Open-Sora 1.2和ADAPT,AVD2在多项评估中表现优异,为自动驾驶安全提供了重要技术支撑。

Kiss3DGen

Kiss3DGen是一款基于2D扩散模型的3D资产生成框架,通过“3D Bundle Image”结构实现多视角图像与法线图的融合,从而高效生成和编辑3D模型。它支持文本与图像输入,具备3D编辑、网格优化和纹理增强等功能,适用于游戏开发、影视制作、VR/AR、数字孪生及教育等多个领域。

PodAgent

PodAgent是一款由多所高校与企业联合开发的播客生成框架,采用多智能体协作机制,模拟真实脱口秀场景,自动生成高质量对话内容。系统具备声音匹配、语音合成与表现力增强功能,并提供多语言支持和完整播客结构生成能力。同时,PodAgent引入评估指标,确保内容的专业性与多样性,适用于媒体、教育、企业推广等多个领域。

Chat2SVG

Chat2SVG 是一种基于大语言模型和图像扩散模型的文本到 SVG 生成工具,能够自动创建高质量矢量图形。通过多阶段处理流程,包括模板生成、细节增强和形状优化,确保图形在视觉质量和语义对齐方面达到较高标准。支持自然语言指令编辑,适用于设计原型、图标创作、教育演示及艺术创作等多种场景。

TheoremExplainAgent

TheoremExplainAgent(TEA)是一款基于多模态技术的AI工具,可生成超过5分钟的数学与科学定理解释视频,涵盖多个STEM领域。它结合文本、动画和语音,提升抽象概念的理解效果,并具备自动错误诊断功能。通过TheoremExplainBench基准评估,TEA在准确性、逻辑性和视觉表现上均表现优异,适用于在线教育、课堂教学和学术研究等多种场景。

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。