AI

Pixcap

Pixcap 是一款基于AI技术的3D设计工具,允许用户通过选择和混合10,000多个3D元素,快速生成个性化设计。平台提供强大的AI生成功能、动画制作能力以及广泛的文件格式兼容性,适用于网页设计、动画制作、品牌推广等多个领域,助力提升视觉效果与用户体验。 ---

一键LOGO设计

一键logo设计是一款智能的在线生成Logo的网站。它根据AI大数据计算,只需输入Logo名称、口号或标题,选择心仪的行业或风格、配色、字体,即可一键生成专属的logo标志。

MealSnap

MealSnap是一款基于AI技术开发的饮食追踪应用程序,用户通过拍摄食物照片即可获取详细的营养信息,包括卡路里、蛋白质、脂肪和碳水化合物等。它具备强大的食物识别能力、个性化饮食建议和健康报告生成功能,帮助用户实现科学饮食管理。此外,MealSnap支持多语言操作,适用范围广泛,特别适合减肥、健身及需特殊饮食管理的人群。

DICE

DICE-Talk是由复旦大学与腾讯优图实验室联合开发的动态肖像生成框架,能够根据音频和参考图像生成具有情感表达的高质量视频。其核心在于情感与身份的解耦建模,结合情感关联增强和判别机制,确保生成内容的情感一致性与视觉质量。该工具支持多模态输入,具备良好的泛化能力和用户自定义功能,适用于数字人、影视制作、VR/AR、教育及心理健康等多个领域。

OmniParse

OmniParse是一款开源数据解析平台,支持多种文件类型的非结构化数据转换为结构化格式,包括文档、图像、视频、音频及网页内容。其核心功能涵盖表格提取、图像字幕生成、音视频转录以及网页内容结构化处理,利用自然语言处理、光学字符识别及深度学习技术提升解析效率与准确性。OmniParse完全在本地运行,确保数据隐私与安全,广泛应用于文档自动化处理、客户服务、市场研究、法律合规及医疗记录管理等领域。

加利福尼亚大学洛杉矶分校

加利福尼亚大学洛杉矶分校(University of California, Los Angeles,简称:UCLA) ,是位于美国洛杉矶的公立研究型大学 ,是环太平洋大学联盟和国际公立大学论坛成员 ,被誉为“公...

Eagle

Eagle是一个由英伟达开发的多模态大模型,专长于处理高分辨率图像,提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构,通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源,适用于多个行业,具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

CustomVideoX

CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架,能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差(TAB)和实体区域感知增强(ERAE),有效提升视频的时间连贯性和语义一致性。支持多种应用场景,如艺术设计、广告营销、影视制作等,具备高效、精准和可扩展的特点。

Paper2Poster

Paper2Poster是由加拿大滑铁卢大学、新加坡国立大学等机构推出的学术框架,基于多模态自动化技术从科学论文生成海报。它通过Parser、Planner和Painter–Commenter系统实现内容压缩、布局优化和视觉质量提升,支持将长篇论文转化为结构化视觉海报。Paper2Poster引入PaperQuiz评估方法,确保海报有效传达核心内容,提高生成效率,适用于学术会议、报告、科研展示及教

Transfusion

Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成