端到端

braintrust

Braintrust 是一个端到端的 AI 工具平台,专注于通过迭代式的工作流帮助公司快速构建高效的 AI 应用。它提供了强大的提示调整、评分器配置及数据集管理功能,支持从模型评估到质量控制的全流程优化。此外,Braintrust 的直观界面和代码库集成特性使其适用于各类用户群体,广泛应用于 AI 产品开发、模型评估、质量控制及数据集构建等领域。

3D

3D-Speaker是一个多模态开源项目,专注于通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码,以及多样化数据集,并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

Momentic

Momentic是一款AI驱动的测试平台,专注于帮助开发者高效创建和管理端到端测试。其核心功能包括低代码交互式编辑器、自动适应UI变化、零代码复杂断言生成以及多环境测试执行能力。Momentic能够显著简化测试流程,加速软件发布周期,并广泛应用于端到端测试、回归测试、UI测试及性能测试等场景。

StableAnimator

StableAnimator是一款由复旦大学、微软亚洲研究院、虎牙公司及卡内基梅隆大学联合开发的高质量身份保持视频生成框架。它能够根据参考图像和姿态序列,直接生成高保真度、身份一致的视频内容,无需后处理工具。框架集成了图像与面部嵌入计算、全局内容感知面部编码器、分布感知ID适配器以及Hamilton-Jacobi-Bellman方程优化技术,确保生成视频的流畅性和真实性。StableAnimato

EMOVA

EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手,具备处理图像、文本和语音的能力,支持情感化语音对话,并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制,广泛应用于客户服务、教育辅助、智能家居控制等多个领域。

Skyo

Skyo是一款基于天工AI大模型技术的智能语音对话助手,具备快速响应、多语言对话、实时打断、情感化回应及个性化记忆等功能。它能根据用户情绪提供拟人化回复,并支持长时间对话和个性化声音定制。Skyo可应用于情感陪伴、个性化交互、多语言客服、时事新闻聊天、教育辅助和生活助理等多个场景,旨在为用户提供高质量的互动体验。

Agent K v1.0

Agent K v1.0 是一款端到端自主数据科学智能体,由华为诺亚方舟实验室与伦敦大学学院团队联合开发。该工具能够自动化处理数据科学生命周期中的各个环节,支持多模态数据处理,具备动态多步骤问题解决能力,并通过结构化推理和动态记忆管理实现自我学习与优化。Agent K v1.0 在Kaggle多模态挑战赛中表现优异,广泛应用于金融、医疗、零售、制造及客户服务等领域。

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型,参数量为968M。它基于LLaVA架构优化,能够处理视觉与文本输入,显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能,广泛应用于内容审核、智能助手、视觉搜索等领域。

Fish Agent

Fish Agent是一款集成了自动语音识别(ASR)与文本到语音(TTS)技术的端到端语音处理工具,能够直接实现语音到语音的转换,无需传统语义编码器/解码器。它支持多种语言,适用于语音转换、环境音频信息捕捉等场景,并基于深度学习技术优化了语音处理性能。Fish Agent可广泛应用于内容创作、教育、客户服务及娱乐等领域。

EMMA

EMMA是一款基于Gemini模型的端到端自动驾驶多模态模型,可直接从原始相机传感器数据生成驾驶轨迹并执行多种任务,如3D对象检测、道路图元素识别及场景理解。该模型利用自然语言处理技术实现跨任务协作,并展现出强大的泛化能力,但在某些方面仍需改进。