模型

Baichuan

Baichuan-NPC(百川角色大模型)是一款由百川智能公司推出的智能角色模型,通过文本描述即可生成具有生动表现力的角色智能体。该模型在“角色知识”与“对话能力”方面进行了深度优化,确保角色能更准确地理解对话语境,并根据角色性格进行交流和互动。主要功能包括高效对话能力、高度定制角色创建、严格的事实性回复、高质量数据预训练及思维链对齐技术。

SpatialVLA

SpatialVLA是一款由多机构联合研发的空间具身通用操作模型,具备强大的3D空间理解能力与跨平台泛化控制能力。通过Ego3D位置编码和自适应动作网格技术,实现精准的环境感知与动作生成。支持零样本任务执行与快速微调,适用于工业、物流、医疗等多个领域,推动机器人技术的发展与应用。

Eluna.ai

一个由 AI 驱动的文生图平台。借助 eluna.ai,您可以利用大量功能将简单的文本转换为引人入胜的视觉设计。无论您的目标是生成详细的图像、尝试无限缩放、从图像中删除背景,还是放大现有图像,eluna.ai 都能满足您的需求。

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集,支持文本、图像和点云等多种数据形式,旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务,该工具不仅能够评估模型性能,还能促进具身AI和3D场景理解领域的研究进展。同时,它为开发更强大的情境推理模型提供了丰富的预训练资源。

Video Alchemist

Video Alchemist是一款由Snap公司研发的视频生成模型,支持多主体和开放集合的个性化视频生成。它基于Diffusion Transformer模块,通过文本提示和参考图像生成视频内容,无需测试优化。模型引入自动数据构建和图像增强技术,提升主体识别能力。同时,研究团队提出MSRVTT-Personalization基准,用于评估视频个性化效果。该工具适用于短视频创作、动画制作、教育、剧

蓝心大模型BlueLM

蓝心大模型(BlueLM)是vivo推出的自研通用大模型矩阵,包含十亿、百亿、千亿三个参数量级共5款,主要面向端侧和云端服务,用于复杂逻辑推理等应用场景。

EXAONE 3.5

EXAONE 3.5是一款由LG AI研究院开发的开源AI模型,包含多种参数规模版本,专长于长文本处理和复杂场景下的推理任务。其核心技术包括检索增强生成与多步推理,可显著减少错误信息并提升准确性。此外,EXAONE 3.5还具备双语支持及强大的上下文理解能力,适用于聊天机器人、语言翻译、内容创作等多个领域。

olmOCR

olmOCR 是一款开源 PDF 文档处理工具,结合文档锚定技术和 Qwen2-VL-7B-Instruct 模型,可高效提取结构化文本并保留原始布局。支持多种文档类型,具备大规模批量处理能力和低成本优势,适用于学术研究、法律文件处理、企业文档管理及数字图书馆建设等多个场景。其开源特性与可扩展性也增强了用户的使用灵活性。

百度灵医Bot

百度灵医Bot作为百度推出的医疗大模型应用,通过其强大的语言处理能力和专业医疗知识库,为用户提供了全面、安全、智能的医疗健康服务。

Molmo 72B

Molmo 72B是一款由艾伦人工智能研究所推出的开源多模态AI模型,集成了图像和文本处理能力,适用于图像描述生成、视觉问答、文档解析及多模态交互等多种任务。凭借其强大的视觉编码能力和先进的模型架构,Molmo 72B在学术基准测试中表现优异,为开源AI技术的发展做出了重要贡献。