音频

UniFab

一款功能强大的视频增强工具,UniFab具有AI驱动的升频、降噪、SDR 到 HDR 转换以及其他多种功能,提升视频质量,满足专业人士和爱好者的需求。

TANGO

TANGO是一个开源框架,利用分层音频运动嵌入和扩散插值网络,生成与目标语音同步的全身手势视频。其主要功能包括高保真视频制作、跨模态对齐、过渡帧生成及外观一致性保持,适用于新闻播报、虚拟YouTuber、在线教育等多个领域。该工具通过先进的技术解决了动作与语音匹配问题,并有效提升了视频内容制作效率。

Hallo

Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究团队共同开发的一种基于人工智能的肖像图像动画技术。该技术通过分层音频驱动视觉合成、端到端扩散模型、交叉注意力机制、UNet去噪器、时间对齐技术和参考网络等方法,实现了音频与视觉输出的高精度同步。Hallo具备音频同步动画、面部表情生成、头部姿态控制、个性化动画定制、时间一致性维护以及动作多样性等主要功能,显著提升了视频动画的真实感

音虫

音虫SoundBug是一款由国内团队研发的数字音频工作站(DAW)软件,以其简洁直观的用户界面和易于上手的操作特点,为音乐爱好者和音乐学习者提供了一套完整的音乐制作工具。

OBSRec录屏大师

一款简单、易用、专业的视频录制工具,支持录制屏幕、区域录制、窗口录制、声音录制、摄像头录制,满足用户在不同场景下的录屏需求。

歌词AI鉴赏

用AI的力量理解你最喜欢的歌曲,发现音乐的美妙和感动

FLOAT

FLOAT是一款基于音频驱动的虚拟人像生成模型,利用运动潜在空间和流匹配技术,实现时间一致性视频生成。它支持情感增强,生成自然且富有表现力的虚拟人物,广泛应用于虚拟主播、视频会议、社交媒体、游戏以及电影制作等多个领域,同时具备高效的采样和生成能力。

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。

Noisli

Noisli.com 是一个提供背景噪音和环境声音的平台,旨在帮助用户在工作中保持专注、睡眠和放松。

Replay

Replay是一款基于AI技术的音频处理工具,可精准分离音乐中的主唱、人声和伴奏等音轨。支持多种音频格式,具备高质量输出、实时预览、参数调整和自动化处理等功能,适用于音乐制作、KTV伴奏、教学及内容创作等领域。操作简便,兼容多平台,为音乐创作和分析提供高效解决方案。