增强

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型,通过集成自动语音识别(ASR)、大型语言模型(LLM)、文本到语音(TTS)以及WebSockets等技术,提供高质量、实时的语音交互体验。它支持全双工交互和打断功能,可整合网络搜索和RAG模型以增强回答能力,适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

Hallo2

Hallo2是一款由复旦大学、百度公司和南京大学合作开发的音频驱动视频生成模型。它能够将单张图片与音频结合,并通过文本提示调节表情,生成高分辨率4K视频。Hallo2采用了补丁下降、高斯噪声等数据增强技术,提升了视频的视觉一致性和时间连贯性,同时通过语义文本标签提高了生成内容的可控性与多样性。该模型适用于电影、游戏、虚拟助手等多个领域,展现出强大的内容生成能力。

BiGR

BiGR是一种基于二进制编码的条件图像生成模型,集成了生成与判别任务于同一框架,支持高质量图像生成、视觉辨别和编辑。它通过掩码建模机制和二进制转码器实现高效的图像重建与预测,无需针对特定任务进行结构修改或参数调整,适用于多种视觉任务,如艺术创作、内容生成、广告设计、图像修复等。

Granite 3.0

Granite 3.0是IBM推出的一套先进的AI模型,适用于多种应用场景,包括客户服务自动化、内容创作与审核、数据分析以及编程辅助。它通过检索增强生成技术和多语言支持提升任务效率,并具备出色的安全防护能力。该模型采用深度学习和混合专家架构,经过大规模数据训练,为企业提供高效、灵活且可靠的AI解决方案。

ComfyUI客户端

ComfyUI客户端是一款专为图像生成与处理设计的桌面应用程序,支持Windows和Mac系统。它具备一键安装、自动更新及预配置Python环境等功能,可帮助用户快速搭建AI生图流程。软件提供丰富的节点连接选项,支持图像生成、编辑、修复以及虚拟现实场景构建等多样化应用场景,适用于艺术家、设计师及医学影像专家等领域。

Project Turntable

Project Turntable是一款由Adobe发布的AI工具,支持用户在三维空间中旋转二维矢量图像,并利用生成式AI和深度学习技术即时生成图像的隐藏部分。它显著提升了设计师的工作效率,减少了重复性劳动,适用于平面设计、插画创作、动画制作及游戏开发等领域,同时保持了图像的二维特性和平滑过渡效果。

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型,支持实时语音转文本,具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术,适应不同长度的音频输入,计算需求随音频长度变化而调整,适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。

FakeShield

FakeShield是一款由北京大学研发的多模态大型语言模型框架,主要用于检测和定位图像篡改。它通过结合视觉与文本信息,生成篡改区域掩码并提供详细的判断依据。其核心模块包括领域标签引导的检测模块和多模态定位模块,支持多种篡改技术的分析,具有较高的准确性与可解释性。FakeShield广泛应用于社交媒体内容审核、法律取证、新闻媒体真实性验证以及版权保护等领域。

NotebookLlama

NotebookLlama是一款基于Meta开发的开源工具,能够将PDF文档自动转换为高质量播客内容。它通过LLaMa模型完成PDF预处理、文本转播客脚本、增加戏剧性元素以及文本转语音合成等步骤,无需人工干预即可生成专业水准的播客。NotebookLlama提供了详细的教程和操作指南,并支持多种应用场景,包括教育、新闻、企业培训和有声书制作等。

WonderWorld

WonderWorld是一款基于斯坦福大学和麻省理工学院合作研发的3D场景生成框架,通过Fast LAyered Gaussian Surfels(FLAGS)表示法与引导深度扩散技术,从单张图片快速生成连贯且多样化的虚拟场景。用户可实时交互,生成包括城市、自然、幻想等多种风格的3D环境,并适用于游戏开发、虚拟现实、增强现实以及建筑设计等多个领域。