生成

喵呜提示词助手

将复杂的 Midjourney 提示词'咒语'进行可视化编辑和调整,输入中文提示词自动翻译成英文,傻瓜式操作,帮助您更好的创作提示词

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。

Sitcom

Sitcom-Crafter是一款由多所高校联合开发的3D场景人类动作生成系统,能够根据剧情描述生成多样化、符合物理规律的动作,包括行走、交互及多人协作。系统具备八大模块,包含核心动作生成与增强功能,如碰撞修正、运动同步与手部姿态检索。其核心技术包括3D场景感知与自监督SDF策略,无需额外数据即可生成自然动作。适用于动画、游戏、VR/AR、影视及教育等多个领域,提升创作效率与智能化水平。

WriteHERE

WriteHERE是一款基于异质递归规划技术的开源AI写作框架,支持生成超长文本并动态分解写作任务为检索、推理和写作三种异构模块。通过有向无环图管理任务依赖关系,实现自适应执行,适用于小说创作、技术报告、行业分析等多场景。其数学形式化设计与任务可视化功能提升了写作过程的可控性和一致性,具备良好的扩展性与灵活性。

DynamicFace

DynamicFace是由小红书团队开发的视频换脸技术,结合扩散模型与时间注意力机制,基于3D面部先验知识实现高质量、一致性的换脸效果。通过四种精细的面部条件分解和身份注入模块,确保换脸后的人脸在不同表情和姿态下保持一致性。该技术适用于视频与图像换脸,广泛应用于影视制作、虚拟现实、社交媒体等内容创作领域,具备高分辨率生成能力和良好的时间连贯性。

RSIDiff

RSIDiff 是一种基于递归自训练的文本到图像生成优化框架,通过高质量提示构建、偏好采样和分布加权机制,提升图像质量和与人类偏好的对齐度,减少训练崩溃风险。它具备自演化能力,降低对大规模数据的依赖,广泛应用于艺术创作、广告设计、VR/AR、游戏开发等领域。

SpatialLM

SpatialLM 是一款由群核科技推出的开源空间理解多模态模型,能通过分析普通手机拍摄的视频生成详细的 3D 场景布局,涵盖房间结构、家具摆放等信息。它结合大语言模型与点云重建技术,实现空间认知与语义标注,并支持低成本数据采集。该模型适用于具身智能训练、AR/VR、建筑设计等多个领域,具备物理规则嵌入和结构化场景生成能力。

CSM

CSM是一款基于人工智能的3D建模平台,能够将2D图像、文本描述或手绘草图快速转换为高质量的3D模型。其主要功能包括图像到三维、文本到三维、草图到三维以及实时建模等,并支持动画和纹理编辑。CSM适用于游戏开发、影视制作、产品设计及建筑设计等多个行业,助力创意工作者高效完成从概念到原型的创作流程。

问小白PPT生成

问小白PPT生成是一款基于AI技术的智能PPT制作工具,用户只需输入主题或大纲,即可快速生成完整的PPT内容,支持文本、布局和设计的一键生成。工具具备高效便捷、自定义性强、多格式导出等功能,适用于工作汇报、学术演讲、商业演示、教育培训及个人分享等多种场景,目前提供完全免费的使用服务。