SmolDocling SmolDocling-256M-preview 是一款轻量级多模态文档处理模型,能将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别。模型参数量仅256M,推理速度快,适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能,并兼容Docling,适用于文档数字化、科学研究及移动环境应用。 AI项目与工具 2025年03月22日 98 点赞 0 评论 201 浏览
GR00T N1 GR00T N1 是英伟达推出的开源人形机器人基础模型,支持多模态输入并具备复杂任务执行能力。采用双系统架构,结合视觉-语言模型与扩散变换器,实现精准动作控制。基于大规模数据训练,适应多种机器人形态和任务场景,广泛应用于物流、制造、医疗等领域,提升自动化水平与操作效率。 AI项目与工具 2025年06月12日 62 点赞 0 评论 311 浏览
TokenFD TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型,专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐,支持Token级图文交互,提升了多模态任务性能。其基于自研的TokenIT数据集进行训练,涵盖2000万张图像和18亿高质量Token-Mask对,覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域,具有广泛的适用性和 AI项目与工具 2025年06月12日 90 点赞 0 评论 294 浏览
UniFluid UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架,支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入,结合Gemma模型和VAE技术,实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色,具备良好的下游任务迁移能力,适用于创意设计、内容创作等多个领域。 AI项目与工具 2025年06月12日 54 点赞 0 评论 246 浏览
UniAct UniAct是一款面向具身智能的通用行为建模框架,旨在解决机器人行为异构性问题。通过向量量化构建通用动作空间,UniAct将不同机器人的原子行为统一表示,实现跨平台共享。其轻量架构(如0.5B模型)具备高效性能与快速适应能力,仅需少量数据即可微调,并通过异构解码器适配多种机器人。适用于自动驾驶、医疗、工业及家庭服务等多个领域,提供一致且高效的控制方案。 AI项目与工具 2025年06月12日 14 点赞 0 评论 326 浏览
wcplusPro wcplusPro 是一款支持多平台的微信公众号数据采集与分析工具,可采集文章、阅读数据等信息,并支持百万级数据管理与快速检索。提供多种数据导出格式,适用于 AI 训练、内容分析、市场研究等场景。具备数据报告、全文搜索、任务管理等功能,满足不同用户的多样化需求。 AI项目与工具 2025年06月12日 29 点赞 0 评论 194 浏览
Instella Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持4096标记序列,具备强大的自然语言理解、指令跟随和多轮对话能力。通过多阶段训练和高效优化技术,Instella在多个任务中表现优异,适用于智能客服、内容创作、教育辅导、编程辅助和企业知识管理等多个场景。AMD全面开放了模型资源,促进AI技术发展与社区合作。 AI项目与工具 2025年06月12日 79 点赞 0 评论 347 浏览
OLMo 2 32B OLMo 2 32B 是由 Allen Institute for AI 推出的开源语言模型,拥有 320 亿参数,性能接近更大规模模型。它采用三阶段训练策略,结合预训练、中期训练和后训练,提升模型稳定性与任务适应性。模型支持多任务处理,涵盖自然语言处理、数学推理、编程辅助和内容创作等领域,并具备高效训练能力与低能耗优势。所有数据、代码和权重均开源,便于研究与开发。 AI项目与工具 2025年06月12日 87 点赞 0 评论 265 浏览
InternVL InternVL是由上海人工智能实验室开发的多模态大模型,融合视觉与语言处理能力,支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构,具备多模态理解、多语言处理、文档解析、科学推理等能力,广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略,提升处理效率与准确性。 AI项目与工具 2025年06月12日 78 点赞 0 评论 374 浏览
Orpheus TTS Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。 AI项目与工具 2025年06月12日 26 点赞 0 评论 362 浏览