学习

Manga Image Translator

Manga Image Translator 是一个开源的漫画图片文字翻译工具,基于 OCR 和机器翻译技术,实现对漫画和图片中文字的自动识别与翻译。它支持多语言翻译,包括日文、中文、英文和韩文,并具备图像合成能力,保持原图风格。工具提供批量处理和在线/离线翻译功能,适用于漫画爱好者、语言学习者以及出版商等用户群体。

TÜLU 3

TÜLU 3是艾伦人工智能研究所发布的开源指令遵循模型,提供8B、70B及未来的405B版本。它通过后训练技术显著提升了模型在数学、编程和推理等方面的表现,同时支持多种任务处理和创新的后训练方法,适用于自然语言处理、教育、编程开发及内容创作等多个领域。

Eagle

Eagle是一个由英伟达开发的多模态大模型,专长于处理高分辨率图像,提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构,通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源,适用于多个行业,具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

MinusX

MinusX是一款先进的AI工具,专为数据分析应用程序如Jupyter和Metabase设计。它通过自然语言处理技术,支持用户以聊天形式提出问题和假设,并自动执行数据分析任务,提供直观的见解。MinusX简化了数据探索过程,提高了工作效率,使数据分析师、研究人员和商业决策者能够快速获得深入的数据洞察。主要功能包括自然语言查询、假设生成与验证、内容修改、选择与提问以及无缝集成。

SynCD

SynCD是由卡内基梅隆大学与Meta联合开发的高质量合成训练数据集,用于提升文本到图像模型的定制化能力。它通过生成同一对象在不同视角、光照和背景下的图像,结合共享注意力机制和3D资产引导,确保对象一致性。该数据集支持无调优模型训练,提升图像质量和身份保持能力,广泛应用于个性化内容生成、创意设计、虚拟场景构建等领域。

南京大学人工智能学院

吕建院士领导的南京大学计算机软件新技术国家重点实验室2007、2012、2017 连续三次获评优秀,名列全国计算机领域第一

书生·筑梦2.0(Vchitect 2.0)

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型,支持文本到视频和图像到视频的转换,生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架,适用于广告、教育、影视等多个领域。

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架,结合视觉语言模型与三维操作技术,实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法,支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制,提升操作精度与适应性,适用于日常操作、工业自动化及服务机器人等场景。