语言模型

SigLIP 2

SigLIP 2 是 Google DeepMind 开发的多语言视觉-语言模型,具有强大的图像与文本对齐能力。它支持多种语言输入,具备零样本分类、图像-文本检索等功能,并通过 Sigmoid 损失函数和自监督学习技术提升训练效率与模型性能。其支持多种分辨率的变体,适用于文档理解、视觉问答及开放词汇任务。该模型基于 Vision Transformer 架构,具备良好的兼容性。

VideoAgent

VideoAgent是一款基于自改进机制的视频生成系统,结合图像观察与语言指令生成机器人控制视频计划。它采用自我条件一致性方法优化视频质量,通过预训练视觉-语言模型反馈和实际执行数据的收集,持续提升生成效果,减少幻觉内容并提高任务成功率。VideoAgent在模拟环境中有优异表现,并已应用于机器人控制、模拟训练、教育研究、游戏开发以及电影制作等领域,展现出广泛的应用潜力。

AgentSquare

AgentSquare是一款由清华大学团队研发的模块化设计工具,专注于在大型语言模型代理的设计空间内实现高效搜索。其核心功能包括模块化设计、模块重组与进化、性能预测及自动化搜索等,通过标准化接口支持模块间无缝集成,广泛应用于客户服务、个人助理、教育、医疗及金融等多个领域,旨在提升智能体性能并降低推理成本。

飞扬Ai助手

专注于工作交付场景的AI助手,像巴黎欧莱雅一样值得拥有!

Ditto

Ditto是一款基于Flask框架的Web应用程序生成工具,通过自然语言输入和大型语言模型(LLM)实现自动化代码生成,支持模块化结构和无代码操作,适合快速原型开发、教育学习及非技术人员使用。其核心功能包括自然语言解析、代码自动生成、模块化管理以及环境变量配置等。

MedRAG

MedRAG是由南洋理工大学研发的医学诊断模型,结合知识图谱与大语言模型(LLM),提升医学诊断的精准度与效率。该模型构建了四层细粒度知识图谱,支持多模态输入,具备主动补问机制,能有效补充患者信息,提升诊断准确性。在真实数据集上,其诊断准确率提升了11.32%。MedRAG可应用于急诊、慢病管理、医学教育等多个领域,为医疗决策提供科学依据。

Valley

Valley是一款由字节跳动开发的多模态大语言模型,擅长处理文本、图像和视频数据,广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能,支持灵活调整令牌数量,实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色,尤其在参数规模较小的情况下依然保持优异的成绩。

YAYI2

中科闻歌研发的一款新一代开源大语言模型,中文名为“雅意”。该模型包含 Base 和 Chat 版本,参数规模达到 30B,基于 Transformer 架构构建。

陌言AI

陌言AI是一款免费的智能AI问答系统,可以快速、准确地解答您的问题,辅助您更高效的学习和工作,陌言Ai–让创作变得更加简单。

LLM2LLM

LLM2LLM是一种基于教师-学生架构的迭代数据增强方法,通过生成针对性的合成数据提升语言模型在低数据量场景下的性能。该技术通过识别并强化模型预测错误的数据点,实现精准优化,同时控制数据质量和规模。适用于医学、法律、教育等数据稀缺领域,具有良好的可扩展性和实用性。