语言模型 - 智狐AI导航

SigLIP 2

SigLIP 2 是 Google DeepMind 开发的多语言视觉-语言模型，具有强大的图像与文本对齐能力。它支持多种语言输入，具备零样本分类、图像-文本检索等功能，并通过 Sigmoid 损失函数和自监督学习技术提升训练效率与模型性能。其支持多种分辨率的变体，适用于文档理解、视觉问答及开放词汇任务。该模型基于 Vision Transformer 架构，具备良好的兼容性。

AI项目与工具 2025年06月12日 94 点赞 0 评论 836 浏览

VideoAgent

VideoAgent是一款基于自改进机制的视频生成系统，结合图像观察与语言指令生成机器人控制视频计划。它采用自我条件一致性方法优化视频质量，通过预训练视觉-语言模型反馈和实际执行数据的收集，持续提升生成效果，减少幻觉内容并提高任务成功率。VideoAgent在模拟环境中有优异表现，并已应用于机器人控制、模拟训练、教育研究、游戏开发以及电影制作等领域，展现出广泛的应用潜力。

AI项目与工具 2025年06月12日 66 点赞 0 评论 836 浏览

AgentSquare

AgentSquare是一款由清华大学团队研发的模块化设计工具，专注于在大型语言模型代理的设计空间内实现高效搜索。其核心功能包括模块化设计、模块重组与进化、性能预测及自动化搜索等，通过标准化接口支持模块间无缝集成，广泛应用于客户服务、个人助理、教育、医疗及金融等多个领域，旨在提升智能体性能并降低推理成本。

AI项目与工具 2025年06月12日 39 点赞 0 评论 837 浏览

飞扬Ai助手

专注于工作交付场景的AI助手，像巴黎欧莱雅一样值得拥有！

创作工具 2026年06月22日 0 点赞 0 评论 840 浏览

Ditto

Ditto是一款基于Flask框架的Web应用程序生成工具，通过自然语言输入和大型语言模型（LLM）实现自动化代码生成，支持模块化结构和无代码操作，适合快速原型开发、教育学习及非技术人员使用。其核心功能包括自然语言解析、代码自动生成、模块化管理以及环境变量配置等。

AI项目与工具 2025年06月12日 99 点赞 0 评论 841 浏览

MedRAG

MedRAG是由南洋理工大学研发的医学诊断模型，结合知识图谱与大语言模型（LLM），提升医学诊断的精准度与效率。该模型构建了四层细粒度知识图谱，支持多模态输入，具备主动补问机制，能有效补充患者信息，提升诊断准确性。在真实数据集上，其诊断准确率提升了11.32%。MedRAG可应用于急诊、慢病管理、医学教育等多个领域，为医疗决策提供科学依据。

AI项目与工具 2025年06月12日 79 点赞 0 评论 842 浏览

Valley

Valley是一款由字节跳动开发的多模态大语言模型，擅长处理文本、图像和视频数据，广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能，支持灵活调整令牌数量，实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色，尤其在参数规模较小的情况下依然保持优异的成绩。

AI项目与工具 2025年06月12日 60 点赞 0 评论 842 浏览