AR

PDF to Podcast

PDF to Podcast 是一款由 NVIDIA 开发的 AI 工具,能够将 PDF 文档自动转换为高质量的音频内容,如播客。该工具结合了大型语言模型、文本到语音技术以及 NVIDIA NIM 微服务架构,支持从 PDF 提取信息并生成结构化文本,再通过语音合成输出自然流畅的音频。用户可自定义生成内容的重点,并支持多种部署方式,适用于企业培训、技术简报、客户服务、医疗教育等多个领域。

MotionCanvas

MotionCanvas是一种图像到视频生成工具,能将静态图像转化为动态视频。它提供相机与物体运动的联合控制,支持复杂轨迹设计和局部运动调整,具备3D感知能力,可生成高质量长视频。适用于电影制作、动画创作、VR/AR、游戏开发及教育等多个领域。

VARGPT

VARGPT是一款多模态大语言模型,整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制,支持文本与图像的混合输入和输出,具备高效的视觉生成能力。模型采用三阶段训练策略,提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

DiffuEraser

DiffuEraser是一款基于稳定扩散模型的视频修复工具,具备未知像素生成、已知像素传播、时间一致性维护等功能。通过集成运动模块和优化网络架构,它能有效提升视频修复质量,减少噪声和幻觉。适用于影视后期制作、老电影修复、监控视频增强等多个领域,支持高精度和高连贯性的视频内容修复与增强。

UI

UI-TARS是由字节跳动开发的图形用户界面代理模型,支持通过自然语言实现桌面、移动端和网页的自动化交互。具备多模态感知、跨平台操作、视觉识别、任务规划与记忆管理等功能,适用于自动化任务执行和复杂交互场景。支持云端与本地部署,提供丰富的开发接口,便于集成与扩展。

NoteGen

NoteGen是一款开源AI笔记工具,支持截图识别、剪贴板监听和文本输入,通过OCR和AI技术将碎片信息整理为结构化Markdown笔记。内置Markdown编辑器与AI写作助手,支持大纲生成、公式编辑、流程图绘制及翻译优化。支持多设备同步与GitHub私有仓库管理,保障数据安全,适用于知识管理、学习研究、创作写作及团队协作等场景。

Zerox

Zerox是一款基于GPT-4o-mini模型的开源OCR工具,支持多种文件格式,具备零样本识别能力,可高效处理扫描文档和复杂布局内容。其输出为Markdown格式,便于编辑与使用,同时提供API接口,适用于企业文档管理、学术研究、法律金融等多个场景,显著提升文档处理效率和准确性。

Motion Dreamer

Motion Dreamer是由香港科技大学(广州)研发的视频生成框架,采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制,支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能,已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。

TransPixar

TransPixar是由多所高校及研究机构联合开发的开源文本到视频生成工具,基于扩散变换器(DiT)架构,支持生成包含透明度信息的RGBA视频。该技术通过alpha通道生成、LoRA微调和注意力机制优化,实现高质量、多样化的视频内容生成。适用于影视特效、广告制作、教育演示及虚拟现实等多个领域,为视觉内容创作提供高效解决方案。

UNI

UNI-CourseHelper是一款基于AI技术的学习辅助工具,支持多模态问答、长文解析、思维链推理等功能,覆盖多个学科领域。通过Markdown格式展示答案,支持图片和文档提问,适用于学生、教师及研究人员,提升学习效率与理解深度。