开源

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

MedGemma

MedGemma是谷歌推出的开源AI模型,专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告,27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署,适用于医疗诊断、患者分诊、临床决策辅助等场景,提升医疗服务效率与准确性。

SurfSense

SurfSense是一款开源的AI研究工具,具备强大的搜索功能和自然语言交互能力。它支持多种外部数据源集成,如搜索引擎、Slack、Notion等,并允许用户上传多种格式的文件,整合到个人知识库中。SurfSense采用RAG技术,结合语义和全文搜索,提升检索效率和准确性。同时支持本地部署,保障数据隐私,适用于个人知识管理、学术研究、企业协作等多种场景。

Kilo Code

Kilo Code是一款开源的VS Code AI Agent扩展程序,旨在提升开发人员的编码效率。它具备自然语言生成代码、任务自动化、代码重构、智能补全等功能,支持多种预设模式和MCP服务器市场,内置最新AI模型如Claude 3.7 Sonnet和Gemini 2.5 Pro,无需手动配置API密钥。适用于快速开发原型、编程学习、代码维护和团队开发等场景。

Morphik

Morphik是一款开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索,采用ColPali技术理解文档中的视觉内容,具备快速元数据提取功能,可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成,适用于技术文档处理、企业知识管理和智能应用开发等场景。

AgenticSeek

AgenticSeek是一款完全本地化的开源AI助手,作为Manus的开源替代品,它能够在本地设备上自主执行任务,如浏览网页、编写代码和规划项目,确保用户隐私。支持多种编程语言,具备智能任务拆解与执行能力,用户可通过语音或文本交互。适用于注重隐私和希望在本地环境中使用AI工具的用户。

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型,基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异,平均准确率达70.7%,超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现,适用于法律、金融、科研等多个领域。

LMEval

LMEval是谷歌推出的开源框架,用于简化大型语言模型(LLMs)的跨提供商评估。它支持多模态(文本、图像、代码)和多指标评估,兼容Google、OpenAI、Anthropic等主流模型提供商。LMEval基于增量评估引擎,节省时间和计算资源,并通过自加密的SQLite数据库安全存储评估结果。LMEvalboard提供交互式可视化界面,帮助用户分析模型性能并直观比较不同模型的优缺点。

Chatterbox

Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型,基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练。它支持零样本语音克隆,仅需5秒参考音频即可生成高度逼真的个性化语音,并具备情感夸张控制功能,可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用于交互式应用。此外,它采用安全水印技术防止滥用,适用于内容

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库,筛选、分析最相关的文献,整合不同文献中的观点,为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略,实现高效的多步推理和信息检索能力,适用于学术研究、商业决策和日常生活等多种场景。