语言模型 - 智狐AI导航

WebLI

WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集，包含1000亿个图像与文本配对数据，是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建，保留了丰富的语言和文化多样性，支持多模态任务如图像分类、图像描述生成和视觉问答，广泛应用于人工智能研究、工程开发及教育领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 623 浏览

百度灵医Bot

百度灵医Bot作为百度推出的医疗大模型应用，通过其强大的语言处理能力和专业医疗知识库，为用户提供了全面、安全、智能的医疗健康服务。

创作工具 2026年06月22日 0 点赞 0 评论 622 浏览

蓝心大模型BlueLM

蓝心大模型（BlueLM）是vivo推出的自研通用大模型矩阵，包含十亿、百亿、千亿三个参数量级共5款，主要面向端侧和云端服务，用于复杂逻辑推理等应用场景。

Ai平台模型 2026年06月22日 0 点赞 0 评论 622 浏览

EvolveDirector

EvolveDirector是一个由阿里巴巴与南洋理工大学合作开发的文本到图像生成框架，通过与高级模型API交互获取数据对，结合预训练的视觉语言模型（VLMs）动态优化训练集，大幅降低数据量和训练成本。该框架支持多模型学习、动态数据集管理及在线训练，显著提升了生成图像的质量和多样性，广泛应用于内容创作、媒体娱乐、广告营销、教育科研等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 622 浏览

autoMate

autoMate是一款基于AI与RPA技术的本地化自动化工具，用户可通过自然语言描述任务，无需编程即可完成复杂操作。支持本地部署，确保数据安全，兼容主流大模型，具备智能学习能力。适用于数据处理、报告生成、邮件自动化、跨平台流程管理及日常任务调度等场景，提升工作效率并释放创造力。

AI项目与工具 2025年06月12日 10 点赞 0 评论 621 浏览

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集，支持文本、图像和点云等多种数据形式，旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务，该工具不仅能够评估模型性能，还能促进具身AI和3D场景理解领域的研究进展。同时，它为开发更强大的情境推理模型提供了丰富的预训练资源。

AI项目与工具 2025年06月12日 80 点赞 0 评论 620 浏览

Vision Parse

Vision Parse 是一款开源工具，旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力，包括文本和表格，并能保持原有格式与结构。此外，Vision Parse 支持多种视觉语言模型，确保解析的高精度与高速度。其应用场景广泛，涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

AI项目与工具 2025年06月12日 72 点赞 0 评论 617 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 617 浏览

天壤小白大模型

天壤自研新一代通用语言大模型，具备面向多语言的对话互动、知识问答、逻辑推理等核心能力。

Ai平台模型 2025年06月05日 72 点赞 0 评论 614 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 613 浏览

语言模型

首页

语言模型

列表

默认

浏览次数

发布日期