编辑

SWE

SWE-agent是普林斯顿大学NLP研究团队开发的开源AI工具,旨在帮助程序员和软件工程师解决GitHub存储库中的问题。它通过智能体-计算机接口(ACI)与代码库交互,实现代码浏览、编辑、测试及执行等功能。SWE-agent在SWE-bench测试集上的表现与Devin相近,平均93秒解决问题。其功能包括拉取请求问题解决、代码编辑与修复、自动语法检查、文件查看、全目录字符串搜索、命令与反馈处理

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型,专攻零样本语音编辑和文本到语音(TTS)任务。它采用Transformer架构,通过token重排过程结合因果掩蔽和延迟叠加技术,实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色,适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

Mora

Mora是一个多智能体框架,专为视频生成任务设计,通过多个视觉智能体的协作实现高质量视频内容的生成。主要功能包括文本到视频生成、图像到视频生成、视频扩展与编辑、视频到视频编辑以及视频连接。尽管在处理大量物体运动场景时性能稍逊于Sora,Mora仍能在生成高分辨率视频方面表现出色。

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型,主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作,包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作,实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性,能够展示原始主体的不同动作和表情。此外,VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

Playground AI

Playground AI 是一款流行的人工智能绘图和图像编辑工具,主要功能包括AI文本到图像生成、创意社区作品分享、提示词智能优化和图像到图像的转换。它提供灵活的创作模式,支持用户上传现有图片或草图生成全新的艺术作品。此外,Playground AI 还提供了一个UGC创作社区,用户可以在其中发现多种风格的图片,并借鉴提示词进行创作。Playground AI 提供了免费版和多个付费版本,以满足

adAI艾达艾

adAI艾达艾是一款基于AI技术的在线PPT生成工具,能够快速生成高质量的图文并茂PPT文档。用户只需输入需求描述,工具便能智能匹配内容与图片,生成符合要求的PPT文件。此外,它提供免费下载服务,支持多种编辑软件,并允许用户自定义语言及背景风格。主要应用场景包括商务演示、教育培训、会议报告以及个人简历等。

Boolvideo

Boolvideo是一款基于人工智能技术的视频生成工具,能够将产品链接、博客文章、图片、视频或文本内容快速转化为吸引人的视频。支持多个电商平台,具备动画视频、动态视频生成等功能,适用于电商卖家、内容创作者及市场推广人员,旨在简化视频创作流程,提高工作效率。

Kimi 创作空间

Kimi创作空间是一款利用AI技术辅助视频制作的工具,支持12种预设风格模板以及自定义素材上传,用户可通过输入场景描述和选择音乐快速生成音乐视频。其功能涵盖模板选择、自定义创作、场景描述输入、音乐添加、视频生成、编辑预览及下载,适用于社交媒体、商业宣传、个人娱乐等多种应用场景。

Pi智能演示文档

Pi是一款利用AI技术提升演示文档创作效率的互动内容平台,支持多种内容生成模式(一句话生成、文件导入、URL导入),并配备智能编辑器与多终端适配功能。它提供了丰富的主题配色与组件素材,可帮助用户快速创建高质量的专业演示文档,广泛应用于商务、教育和个人场景中。