AI项目与工具

GaussianCity

GaussianCity是由南洋理工大学S-Lab团队开发的高效3D城市生成框架,基于3D高斯绘制技术,采用紧凑的BEV-Point表示方法降低显存和存储需求。其空间感知的BEV-Point解码器可生成高质量3D城市场景,支持多样化视角和实时渲染,适用于游戏、影视、城市规划等领域。相比现有方法,其生成速度提升60倍,兼具高效与高质量特性。

VITRON

VITRON是一款由多家顶尖机构联合研发的像素级视觉大型语言模型,具备强大的图像与视频处理能力,涵盖理解、生成、分割及编辑等功能。它融合了编码器-LLM-解码器架构、视觉-语言编码和视觉专家系统,支持多种视觉任务,广泛应用于图像编辑、视频创作、教育辅助、电商营销和新闻报道等领域。

InstantCharacter

InstantCharacter是由腾讯混元开发的图像生成插件,基于扩散 Transformer 架构,支持角色一致性保持、高保真图像生成及文本可控性。用户可通过输入角色图片和文字描述,生成符合要求的多样化图像。其适用于连环画、影视、游戏等多个领域,具有高效、灵活和高质量的特点。

AI写作猿

AI写作猿是一款基于AI技术的多功能写作辅助平台,提供AI写作、对话、伪原创、文案提取、AI绘画及PPT生成等功能,适用于内容创作、文案撰写、学习辅导和商业策划等场景。界面友好、操作便捷,支持多领域咨询服务,帮助用户提升写作效率与质量。

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具,通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块,确保生成的音频与视频帧或文本描述时间轴完全对应,适用于影视制作、游戏开发、虚拟现实等多种场景,极大提升了跨模态数据处理的能力和应用效率。

Pippit

Pippit是字节跳动旗下CapCut推出的AI内容创作平台,支持电商、社交媒体和品牌推广场景。用户可通过输入链接或脚本快速生成视频、图片等内容,支持多语言及批量处理。平台提供丰富素材库、AI数字人视频、智能剪辑等功能,并支持一键发布至多个平台。内置数据分析工具,助力内容优化,适合各类创作者和企业提升营销效率。

F5

F5-TTS是一款由上海交通大学研发的高性能文本转语音(TTS)系统,采用流匹配与扩散变换器技术,支持多语言合成及情感控制等功能。它能够在无额外监督条件下生成高质量语音,适用于多种商业和非商业场景,如有声读物、语音助手、语言学习等。

vidyo.ai

Vidyo.ai是一款基于人工智能的视频编辑工具,可将长视频自动剪辑为适合社交媒体的短视频片段。其主要功能涵盖智能剪辑、尺寸适配、字幕生成、播放速度调节及音频优化等。该工具支持多语言操作,适合内容创作者和品牌方高效制作高质量视频内容。

Morphik

Morphik是一款开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索,采用ColPali技术理解文档中的视觉内容,具备快速元数据提取功能,可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成,适用于技术文档处理、企业知识管理和智能应用开发等场景。

阶跃视频

阶跃视频是一款基于AI技术的视频生成工具,提供多样化的主题选择和智能化的描述优化功能,支持用户快速生成高质量短视频。它涵盖城市、自然、科幻等多种创作主题,并通过示例视频为用户提供灵感来源,适用于教育、创意、娱乐及营销等多个场景。