工具

HMA

HMA(Heterogeneous Masked Autoregression)是一种基于异构预训练和掩码自回归技术的机器人动作视频建模方法,支持离散与连续生成模式,可处理不同动作空间的异构性。该工具具备高效实时交互能力,广泛应用于视频模拟、策略评估、合成数据生成及模仿学习等领域,适用于机器人学习与控制任务,提升策略泛化与执行效率。

FilmAgent

FilmAgent是一款由哈尔滨工业大学(深圳)研发的虚拟电影制作工具,基于多智能体协作框架,实现从剧本创作到镜头拍摄的全流程自动化。支持剧本生成、多智能体协作、镜头规划、语音合成等功能,适用于创意视频制作、影视教学及虚拟场景应用。系统在Unity 3D环境中运行,提升电影制作效率与创意表达能力。

Agent Squad

Agent Squad 是一个轻量级、开源的多 Agents 框架,用于协调多个 AI Agents 处理复杂对话。它支持 Python 和 TypeScript 两种语言,具备智能意图分类、灵活的 Agent 响应(流式与非流式)、上下文管理等功能,并提供模块化安装和可扩展架构。适用于智能客服、旅行规划、企业助手等场景,帮助开发者快速构建高效的多 Agents 系统。

EMAGE

EMAGE是一款基于音频输入生成全身手势的AI框架,可同步生成面部表情、肢体动作及整体运动。通过掩蔽音频手势变换器和多模块VQ-VAE建模,实现高质量、多样化的手势生成。适用于虚拟现实、动画制作、数字人交互等领域,提升虚拟角色表现力与交互自然度。

AI万花筒

多种在线AI工具的创意平台,包括GPT、Stable Diffusion、AI绘画等。这个平台旨在为创作者提供优质、便捷的AI创作工具,帮助他们提高工作效率。用户可以利用这些工具生成创意素材,...

Tesseract

Tesseract是一款开源的光学字符识别(OCR)引擎,支持多语言识别和多种图像格式。其具备高精度的文字识别能力,适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行,并提供丰富的编程接口和自定义训练功能,便于开发者集成和优化识别效果。

Wavtool

Wavtool 是一款基于浏览器的 AI 音频创作平台,支持录制、编曲、混音和导出音乐,提供 AI 辅助创作功能,支持多轨处理及高级合成工具。用户可通过浏览器直接操作,无需安装软件,适合音乐爱好者、专业人士及教育用途。

NPOA

NPOA是一款开源的舆情监测工具,支持实时数据采集、情感分析、话题分类及多渠道媒体分析,适用于企业品牌管理、政府舆论监控、市场研究等多个领域。系统提供预警机制、可视化报告和大屏展示功能,便于用户快速获取关键信息并做出应对。

Open Code Reasoning

Open Code Reasoning(OCR)是英伟达推出的开源代码推理AI模型,基于Nemotron架构设计,支持多种编程语言。它具备代码生成、逻辑补全、多语言处理及高效推理能力,适用于代码优化、教育、测试等多个场景。OCR提供32B、14B和7B三种参数版本,满足不同计算需求,并与主流框架兼容,具有良好的扩展性。

HoloTime

HoloTime 是由北京大学深圳研究生院与鹏城实验室联合开发的全景 4D 场景生成框架,可将单张全景图像转化为动态视频,并进一步重建为沉浸式 4D 场景。其核心技术包括全景动画生成器(Panoramic Animator)和时空重建技术,结合 360World 数据集进行训练,实现高质量的视频生成与场景重建。该工具支持 VR/AR 应用,适用于虚拟旅游、影视制作、游戏开发等多个领域,提供高效的沉