R

SpatialLM

SpatialLM 是一款由群核科技推出的开源空间理解多模态模型,能通过分析普通手机拍摄的视频生成详细的 3D 场景布局,涵盖房间结构、家具摆放等信息。它结合大语言模型与点云重建技术,实现空间认知与语义标注,并支持低成本数据采集。该模型适用于具身智能训练、AR/VR、建筑设计等多个领域,具备物理规则嵌入和结构化场景生成能力。

Tesseract

Tesseract是一款开源的光学字符识别(OCR)引擎,支持多语言识别和多种图像格式。其具备高精度的文字识别能力,适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行,并提供丰富的编程接口和自定义训练功能,便于开发者集成和优化识别效果。

YT Navigator

YT Navigator 是一款基于 AI 的 YouTube 内容检索工具,支持自然语言查询、语义搜索和视频内容交互。用户可快速定位视频片段并获取时间戳,提升信息获取效率。适用于研究、学习、创作和分析等场景,具备频道管理、安全会话等功能。采用向量嵌入与 BM25 算法结合的搜索机制,提高搜索准确率,项目已开源。

Umi

Umi-OCR 是一款离线 OCR 工具,支持图片、截图和 PDF 文档的文字识别,具备数学公式与二维码识别功能,可生成可搜索 PDF。支持多语言识别与界面切换,提供命令行和 HTTP 接口调用,适用于文档数字化、数据录入、教育等多个场景。

Fynix

Fynix 是一款基于 AI 的软件开发辅助工具,支持多语言和主流 IDE,提供代码生成、质量分析、流程图可视化、自然语言指令等功能。适用于个人开发者和企业团队,提升开发效率与代码规范性,支持 JIRA 集成,并提供灵活的定价方案。

Marker

Marker 是一款开源的高精度文档转换工具,支持 PDF、Word 等多种格式向 Markdown、JSON 和 HTML 的转换。它利用深度学习技术自动去除干扰元素,支持多语言处理,具备表格、代码块、公式识别及图像提取等功能,适用于学术研究、技术文档、教育资料等多种场景。同时支持硬件加速和批量处理,提升转换效率与用户体验。

Instella

Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持4096标记序列,具备强大的自然语言理解、指令跟随和多轮对话能力。通过多阶段训练和高效优化技术,Instella在多个任务中表现优异,适用于智能客服、内容创作、教育辅导、编程辅助和企业知识管理等多个场景。AMD全面开放了模型资源,促进AI技术发展与社区合作。

Cube 3D

Cube 3D 是 Roblox 推出的 AI 驱动 3D 生成工具,可通过文本描述快速创建高质量 3D 模型和场景。其核心功能包括文本到 3D 模型生成、网格优化、场景布局预测以及开源扩展能力。基于深度学习与原生 3D 数据训练,Cube 3D 提升了 3D 内容创作效率,适用于游戏开发、虚拟环境设计、教育及个性化创作等多种场景。

Claude 3.7 Max

Claude 3.7 Max 是 Cursor 推出的高性能 AI 编程助手,支持 200k 上下文窗口与 200 次工具调用,适用于复杂代码任务和大规模项目开发。具备强大的代码理解、编辑与维护能力,适合需要深度分析和优化的开发者。采用按需付费模式,适用于专业用户。

Mistral Small 3.1

Mistral Small 3.1 是一款由 Mistral AI 开发的开源多模态 AI 模型,拥有 240 亿参数,支持文本与图像处理,具备长达 128k tokens 的上下文窗口和每秒 150 token 的推理速度。采用 Transformer 架构与 MoE 技术,提升计算效率,支持多语言和本地部署。适用于文档处理、图像分析、质量检测、虚拟助手等多种场景。