R - 智狐AI导航

Ichigo

Ichigo是一款开源的多模态AI语音助手，采用混合模态模型，支持实时处理语音和文本交织序列。它通过统一的Transformer架构实现跨模态联合推理，提供低延迟的实时性能，并支持多语言、多轮对话及模糊输入处理。Ichigo适用于智能家居、个人助理、客户服务、教育和健康咨询等多种应用场景，展现了高效、灵活的技术优势。

AI项目与工具 2025年06月12日 96 点赞 0 评论 607 浏览

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 731 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 852 浏览

WebRL

WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架，专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制，并结合自适应强化学习策略，解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现，具备自我进化、持续改进的特点。

AI项目与工具 2025年06月12日 75 点赞 0 评论 648 浏览

Cerebellum

Cerebellum是一款结合Claude 3.5 Sonnet与Selenium WebDriver的智能化浏览器助手，通过构建网页浏览的有向图模型，利用LLM技术分析页面内容和交互元素，智能规划操作路径并动态调整策略。它支持多浏览器操作，可精确模拟用户行为，广泛应用于网页自动化测试、数据抓取、内容管理及电子商务等多个领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 476 浏览

Docling 是一款开源工具，支持多种文档格式的解析与转换，包括 PDF、DOCX、PPTX、图片和 HTML。它通过高级 PDF 理解和 OCR 技术，将文档内容转换为统一的结构化格式（如 Markdown 和 JSON）。Docling 可与 LlamaIndex 和 LangChain 集成，增强文档的检索和问答能力，并提供简洁的命令行界面，适用于自动化文档处理、数据科学、知识管理和信息检

AI项目与工具 2025年06月12日 41 点赞 0 评论 590 浏览

MagicTailor

MagicTailor 是一款基于 DM-Deg 和 DS-Bal 技术的新型 AI 工具，支持组件可控的个性化图像生成。它能够动态干扰不需要的视觉语义，平衡概念与组件的学习，从而显著提升生成图像的质量和控制精度。MagicTailor 的核心功能包括组件可控个性化、动态掩码退化、双流平衡、解耦生成及多组件控制，适用于广告、游戏、电影制作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 767 浏览

Hunyuan

Hunyuan-Large是一款由腾讯开发的大规模混合专家（MoE）模型，以其庞大的参数量成为当前参数规模最大的开源MoE模型之一。该模型基于Transformer架构，擅长处理长文本任务，同时在多语言自然语言处理、代码生成以及数学运算等领域展现出色性能。通过合成数据增强训练与创新的注意力机制，Hunyuan-Large实现了高效的推理吞吐量，并广泛应用于内容创作、教育辅助、知识问答及数据分析等多

AI项目与工具 2025年06月12日 69 点赞 0 评论 756 浏览

Hunyuan3D

Hunyuan3D-1.0 是腾讯推出的一款3D生成模型，支持文本和图像输入生成高质量3D资产。该模型采用两阶段方法，包含轻量版和标准版，具有快速生成和高质量重建的特点，广泛应用于3D创作、工业设计、建筑设计等领域。

AI项目与工具 2025年06月12日 76 点赞 0 评论 498 浏览

DocMind

DocMind是一款基于Transformer架构的文档智能大模型，融合了深度学习、NLP和CV技术，用于处理富文本文档的复杂结构和视觉信息。它能够精准识别文档实体、捕捉文本依赖关系并深入理解文档内容，支持知识库结合，提升专业文档理解能力。DocMind还具备自动执行文档相关任务的功能，如问题解答、文档分类整理等，广泛应用于法律、教育、金融等领域。

AI项目与工具 2025年06月12日 89 点赞 0 评论 917 浏览

R

首页

R

列表

默认

浏览次数

发布日期