多模态

LiveCC

LiveCC是一款由新加坡国立大学Show Lab与字节跳动联合开发的实时视频解说模型,基于自动语音识别字幕进行训练。它能够实时生成自然流畅的视频评论和回答相关问题,适用于体育、新闻、教育等多个场景。模型采用流式训练方法,结合大规模数据集和Qwen2-VL架构,具备低延迟和高质量的生成能力。LiveCC通过LiveSports-3K基准测试评估性能,广泛应用于视频内容分析与智能交互场景。

星野app

星野app是一款功能强大的AI聊天机器人和智能对话工具,有趣的开放剧情和逼真的AI聊天,让你体验真正的聊天互动。

LMMs

LMMs-Eval 是一个用于多模态AI模型的统一评估框架,提供标准化、广泛覆盖且成本效益高的性能评估解决方案。它支持超过50个任务和10多个模型,并通过透明和可复现的评估流程帮助研究者和开发者全面了解模型能力。LMMs-Eval 还引入了 LMMs-Eval Lite 和 LiveBench,分别通过精简数据集降低评估成本并动态更新评估数据集,以确保模型泛化能力的有效评估。

Genesis

Genesis是一款基于开源架构的生成式物理引擎,具备高度准确的物理模拟能力,涵盖物体运动、流体力学、碰撞检测等领域。其显著特点包括超高速模拟、轻量级机器人仿真平台、照片级真实感渲染以及支持自然语言输入的数据生成功能。Genesis旨在推动通用机器人、具身AI及物理AI的发展,适用于机器人训练、游戏开发、影视特效制作等多个领域。

瑞智病理大模型

瑞智病理大模型(RuiPath)是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统,覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据,实现高效、精准的辅助诊断,支持交互式审核流程,提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台,适用于临床诊断、基层医疗、医学教育等多个场景,推动病理诊断智能化发展。

心绪云脑AI

一款专注于情绪健康管理的AI智能工具,提供情绪记录、实时情绪识别与疏导、心理健康课程等服务,帮助用户更好地管理情绪,提升心理健康。

SmolDocling

SmolDocling-256M-preview 是一款轻量级多模态文档处理模型,能将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别。模型参数量仅256M,推理速度快,适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能,并兼容Docling,适用于文档数字化、科学研究及移动环境应用。

AI Now

AI Now是一款由联想推出的个人AI助手,内置Meta Llama 3等本地大型语言模型,支持自然语言交互、内容生成、设备管理和跨设备数据传输等功能。它注重数据安全与隐私保护,通过本地加密和个人知识库实现全面的数据控制。AI Now适用于个人助理、教育辅导、办公自动化、内容创作以及客户服务等多种应用场景,旨在提高用户的工作效率和生活质量。

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架,基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动,适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构,提升生成效果与稳定性,广泛应用于影视、游戏、教育、广告等领域。

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型,基于LLaVA架构设计,包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出,适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术,实现了跨模态任务的精准处理与高效输出。