模型

Diffutoon

Diffutoon是一款基于扩散模型的AI框架,旨在将现实风格的视频转换为动漫风格。该框架支持高分辨率视频处理,能够实现风格化、一致性增强、结构引导和自动着色等功能。此外,Diffutoon具备内容编辑功能,用户可通过文本提示调整视频细节,确保视觉效果和内容的一致性。

ShowUI

ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型,旨在提升图形用户界面(GUI)助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用,实现了高效的零样本截图定位和GUI自动化功能,广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

Image

Image-01 是一款由 MiniMax 开发的文本到图像生成模型,能够根据文本描述精准生成高质量、高分辨率图像,支持多种纵横比输出。具备优秀的人物与物体渲染能力,适用于艺术创作、广告设计、影视制作等多个领域。支持高效批量生成,单次最多输出 9 张图像,每分钟处理 10 个请求,提升创作效率。采用扩散模型与 Transformer 架构,结合线性注意力与 MoE 技术,确保图像质量与生成效率。

ILLUME

ILLUME是一款基于大型语言模型的统一多模态大模型,集成了视觉理解与生成能力,采用“连续图像输入 + 离散图像输出”架构,通过语义视觉分词器和三阶段训练流程,实现了高效的数据利用和多模态任务处理能力。模型能够无缝整合视觉理解与生成功能,广泛应用于视频分析、医疗诊断、自动驾驶及艺术创作等领域。

Stable Diffusion 3

Stable Diffusion 3 是一款由 Stability AI 开发的先进文本到图像生成模型,通过改进的文本渲染能力、多主题提示支持、可扩展的参数量、图像质量提升及先进的架构技术,实现了高质量和多样性的图像生成。该模型在图像生成和文本理解方面取得了显著进展,并通过 Diffusion Transformer 架构和 Flow Matching 技术提升了模型效率和图像质量。

提示精灵小富贵

一个旨在简化并增强为AI模型创建和优化提示词(Prompts)过程的开源项目,会帮你写Prompt提示词的GPTs应用。

AnchorCrafter

AnchorCrafter是一款基于扩散模型的智能视频生成工具,利用人-物交互(HOI)技术生成高质量主播风格产品推广视频。它支持物体外观保持、运动控制、遮挡处理及细节增强学习,适用于在线购物、社交媒体营销、电视广告制作等多个领域,显著提升视频真实感和互动性。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型,采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练,成本低于50美元,训练时间短于30分钟。S1在数学和编程领域表现卓越,支持测试时扩展技术以优化推理效果,并已在GitHub开源,适用于科学问题解决、智能辅导、自动问答等多种场景。

Kimi+

Kimi 是由月之暗面科技有限公司开发的人工智能助手。它具备多语言对话能力,擅长中文和英文,能够处理长文本,支持文件阅读和网址解析,具备搜索能力,并且能够结合搜索结果为用户...