文本生成

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架,用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术,通过多阶段写作流程和模态对齐优化,提升故事内容的质量与连贯性。支持灵活模块化设计,适用于儿童教育、数字内容创作、在线教育等多个场景,为故事创作提供高效、可定制的解决方案。

Champ

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同开发的一款基于3D的AI工具,能够将人物图片转换为高质量的视频动画。Champ通过结合3D参数化模型和潜在扩散模型,精准捕捉和再现人体的3D形态和动态,保证动画的连贯性和视觉逼真度。此外,Champ还支持跨身份动画生成,并能与文本生成图像模型结合,使用户可以根据文本描述生成特定的角色外观和动作。

歌词爆改机

歌词爆改机是一款利用AI技术的小程序,允许用户通过简单操作快速改编歌曲歌词,生成个性化音乐内容。它支持多种风格的歌词创作,包括多版本迭代,并可通过平台合成功能实现歌词与旋律的无缝融合。凭借强大的万亿参数语言大模型,该工具不仅提升了创作效率,还为个人娱乐、教育学习及商业用途等场景提供了创新解决方案。

Style AI

Style AI 是一款支持图像、视频生成与编辑的 AI 工具,能够将照片转换为各种艺术风格,如古典绘画或现代数字艺术,同时保留图像核心元素。用户可通过自然语言指令轻松编辑图像,支持无缝合并多张照片,生成集体照或新场景,并能根据文字描述直接生成图像和视频。该工具提供高效、精准的解决方案,适用于艺术创作、创意设计、视频制作、照片编辑及虚拟场景合成等多种场景。

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

DistilQwen2.5

DistilQwen2.5-R1 是阿里巴巴推出的基于知识蒸馏技术的轻量级深度推理模型,包含多种参数量级,适用于资源受限环境。它具备高效计算、深度推理和高度适应性,支持文本生成、机器翻译、客户服务等多种任务。通过双阶段训练和认知轨迹适配框架,提升了小模型的推理能力,性能优于同类开源模型。

HealthGPT

HealthGPT是由多家高校与企业联合开发的医学视觉语言模型,支持医学图像分析、视觉问答、文本生成及多模态融合等任务。其核心技术包括异构低秩适应(H-LoRA)、分层视觉感知(HVP)和三阶段学习策略(TLS),可高效处理复杂医疗数据。模型适用于医学诊断、教育、研究及健康管理等多个场景,具有良好的适应性和实用性。

通答

通答是一款基于先进大模型技术的AI标书编写工具,能够精准分析招标需求,自动生成与招标要求高度匹配的标书结构,帮助用户提升标书编写效率与准确性,降低废标风险。其主要功能包括目录管理、招标分析、标书生成及废标检查,适用于政府采购、企业招标、建筑工程、IT项目及服务外包等多种场景。 ---

GenieArt

一个基于深度学习的AI文本到图像生成模型,GenieArt主要用于生成以文本描述为条件的详细图像和插画。在这里您可以享受低门槛地创作,所想即所得,方便快捷地展现您脑海里的画卷

MisoraAI

Misora AI是一款集成了深度学习与自然语言处理技术的智能搜索引擎,具备快速搜索、精准匹配及自然语言交互等功能。它不仅能为用户提供即时的文本查询结果,还能生成创意内容如诗歌、故事等,并支持图像描述服务。Misora AI适用于多种场景,包括日常信息查询、学术研究、工作辅助以及娱乐资讯获取,为用户提供了便捷高效的智能化解决方案。