模型 - 智狐AI导航

WiseDiag

WiseDiag是杭州智诊科技开发的医疗AI模型，基于海量医学数据训练，具备深度推理能力和个性化服务功能。支持多场景健康咨询，包括医学报告解读、长期健康记录管理及专家级建议。提供多种版本以适应不同需求，适用于健康管理、医疗辅助和远程医疗等应用。

AI项目与工具 2025年06月12日 55 点赞 0 评论 537 浏览

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型，支持处理超长文本（超过100万tokens）及多模态输入（图像、视频、文本）。通过分阶段训练提升上下文理解能力，结合动态分块编码器与并行推理技术，实现高效处理长文本和高分辨率图像。模型基于开源数据训练，适用于视频分析、图像识别、长文本生成等场景，性能在多个基准测试中表现突出。

AI项目与工具 2025年06月12日 65 点赞 0 评论 853 浏览

TIGER

TIGER是由清华大学研发的轻量级语音分离模型，采用时频交叉建模策略与多尺度注意力机制，有效提升语音分离性能，同时显著降低计算和参数开销。模型通过频带切分优化资源利用，适应复杂声学环境，广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

AI项目与工具 2025年06月12日 98 点赞 0 评论 873 浏览

PIKE

PIKE-RAG是由微软亚洲研究院开发的检索增强型生成框架，旨在提升复杂工业场景下的问答准确性与推理能力。通过知识原子化、多智能体规划等技术，支持多跳问题处理和创造性问题解决。适用于法律、医疗、金融等多个领域，具备结构化知识提取、动态任务分解及分阶段开发等核心功能，提高模型生成结果的可靠性和实用性。

AI项目与工具 2025年06月12日 72 点赞 0 评论 844 浏览

ENEL

ENEL是一种无编码器架构的3D大型多模态模型，通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略，在3D对象分类、字幕生成和视觉问答等任务中表现出色，性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 744 浏览

通古大模型

通古大模型是由华南理工大学研发的古籍文言文处理AI工具，基于百川2-7B-Base进行增量预训练，结合24.1亿古籍语料和400万对话数据，采用RAT和RAG技术提升古籍处理效果。支持古文句读、文白翻译、诗词创作、古籍赏析、检索问答及辅助整理等功能，广泛应用于古籍数字化、教育、文化传承与学术研究等领域。

AI项目与工具 2025年06月12日 61 点赞 0 评论 911 浏览

BAG

BAG是一项由香港中文大学与腾讯联合研发的3D可穿戴资产生成技术，结合多视图图像扩散模型与控制网络，根据人体形状和姿态信息生成高质量的服装和配饰。该技术具备高效适配、多样化生成和物理模拟优化等特点，广泛应用于虚拟试衣、游戏开发、VR/AR及时尚设计等领域，有效提升用户体验与设计效率。

AI项目与工具 2025年06月12日 53 点赞 0 评论 775 浏览

WebLI

WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集，包含1000亿个图像与文本配对数据，是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建，保留了丰富的语言和文化多样性，支持多模态任务如图像分类、图像描述生成和视觉问答，广泛应用于人工智能研究、工程开发及教育领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 626 浏览

Sa2VA

Sa2VA是由字节跳动联合多所高校开发的多模态大语言模型，结合SAM2与LLaVA技术，实现对图像和视频的密集、细粒度理解。它支持指代分割、视觉对话、视觉提示理解等多种任务，具备零样本推理能力和复杂场景下的高精度分割效果。适用于视频编辑、智能监控、机器人交互、内容创作及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 682 浏览

OpenThinker

OpenThinker-32B 是一款由多所高校联合开发的开源推理模型，拥有 328 亿参数和 16,000 token 上下文支持，以高效的数据利用和严格的质量控制著称。模型基于少量数据实现优异性能，适用于数学、科学、代码生成等多种推理任务。全面开源，提供模型权重、代码和数据集，支持研究与开发扩展。

AI项目与工具 2025年06月12日 23 点赞 0 评论 815 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期