多模态

GPTBiz

GPTBiz代表着在人工智能领域的一次重要创新,它不仅仅是一个产品,而是一个为中国市场量身定制的大语言模型应用平台。随着人工智能技术的迅猛发展,对于能够快速、

UNI

UNI-CourseHelper是一款基于AI技术的学习辅助工具,支持多模态问答、长文解析、思维链推理等功能,覆盖多个学科领域。通过Markdown格式展示答案,支持图片和文档提问,适用于学生、教师及研究人员,提升学习效率与理解深度。

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具,支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能,兼容U-Net和DiT架构,并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程,提升生成质量与可控性,适用于内容创作、电影制作、广告营销、教育培训等多个领域。

魔搭GPT

魔搭社区ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。

LLaDA

LLaDA是一款基于扩散模型框架的新型大型语言模型,由中国人民大学高瓴AI学院与蚂蚁集团联合开发。它通过正向掩蔽和反向恢复机制建模文本分布,采用Transformer作为掩蔽预测器,优化似然下界提升生成效果。LLaDA在上下文学习、指令遵循和双向推理方面表现突出,尤其在反转推理任务中克服了传统自回归模型的局限。其8B参数版本在多项基准测试中表现优异,适用于多轮对话、文本生成、代码生成、数学推理和语

星火绘镜

一款由科大讯飞推出的AI文生视频创作平台,可以轻松地从文字描述生成短视频内容、将文本转换为视频分镜、扩展成完整的短视等。

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型,通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练,支持电子商务、广告、游戏开发等领域,具备高精度背景移除、多模态数据处理及云服务器无关架构等特点,为用户提供了高效、灵活的解决方案。

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

Stackie.AI

Stackie.AI 是一款基于AI的智能记录与管理工具,支持多模态输入(文本、语音、图像),提供自动整理、任务生成、个性化模板及角色互动等功能。适用于健康管理、学习辅助、日常计划与习惯养成等场景,提升信息处理效率与用户体验。

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型,具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序,并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异,适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。