多模态

GOT-OCR2.0

创新的OCR模型,它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景,GOT-OCR 2.0都能提供强大的支持。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

Graphiti

Graphiti 是一个为动态环境设计的 AI 知识图谱生成框架,支持实时摄取和处理结构化与非结构化数据,具备时间感知能力、动态数据整合、混合检索、状态推理与自动化等功能。它适用于 AI 智能体记忆层、实时交互系统和企业知识管理等场景,提供强大的动态记忆和推理能力,助力实现更智能、高效的 AI 应用。

MUMU

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,提高生成的准确性和质量。该模型基于SDXL的预训练卷积UNet,并融合了视觉语言模型Idefics2的隐藏状态。MUMU能够在风格转换和角色一致性方面展现强大的泛化能力,同时在生成图像时能够很好地保留细节。主要功能包括多模态输入处理、风格转换、角色一致性、细节保留以及条件图像生成。

星火绘镜

一款由科大讯飞推出的AI文生视频创作平台,可以轻松地从文字描述生成短视频内容、将文本转换为视频分镜、扩展成完整的短视等。

HiDream AI

HiDream AI的目标是帮助用户零基础掌握AIGC的一站式能力,唤醒创造力、赋予作品生命感和价值感,同时解放生产力,提升全流程工作效率。

星野app

星野app是一款功能强大的AI聊天机器人和智能对话工具,有趣的开放剧情和逼真的AI聊天,让你体验真正的聊天互动。

元镜

元镜是一款基于人机共生引擎的AI视频创作工具,支持从创意脚本生成到成片输出的全流程制作。具备多模态分镜设计、智能工作流和一键成片功能,提升视频创作效率与质量。适用于短视频、广告、教育、影视及政务宣传等多个领域,满足多样化内容生产需求。

书生·筑梦2.0(Vchitect 2.0)

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型,支持文本到视频和图像到视频的转换,生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架,适用于广告、教育、影视等多个领域。