标记 - 智狐AI导航

FlexTok

FlexTok 是由EPFL与苹果联合开发的图像处理技术，通过将图像转为离散标记序列实现高效压缩与生成。支持8K视频实时渲染，压缩率提升300%，功耗降低45%。具备无损超分辨率重建和灵活图像生成能力，适用于智能家居、安防监控及移动设备等场景。

AI项目与工具 2025年06月12日 70 点赞 0 评论 469 浏览

ShotAdapter

ShotAdapter是一款由Adobe与UIUC联合开发的文本到多镜头视频生成框架，通过过渡标记和局部注意力掩码策略，实现角色身份一致性和镜头内容精准控制。支持用户通过文本提示调节镜头数量、时长和背景，适用于影视、广告、教育、游戏等领域，具备高效、灵活和可扩展的技术特点。

AI项目与工具 2025年06月11日 73 点赞 0 评论 531 浏览

M2UGen

M2UGen是由腾讯PCG ARC实验室与新加坡国立大学共同研发的一款多模态音乐理解和生成框架，支持从文本、图像、视频等多种模态输入生成相应音乐。它具有强大的音乐理解能力、灵活的音乐编辑功能以及多样化的应用场景，适用于音乐制作、影视配乐、音乐教育等多个领域。凭借其创新的技术架构和卓越的表现力，M2UGen已成为当前最优秀的多模态音乐生成工具之一。

AI项目与工具 2025年06月12日 51 点赞 0 评论 535 浏览

Fluid

Fluid是一种基于连续标记和随机生成顺序的文本到图像生成模型，具有卓越的视觉表现力和全局结构捕捉能力。它通过自回归架构和Transformer模型，逐步预测序列中的下一个元素，构建与文本提示相匹配的高质量图像。Fluid在多个基准测试中取得了优异成绩，并广泛应用于艺术创作、媒体娱乐、广告营销等领域。

AI项目与工具 2025年06月12日 47 点赞 0 评论 546 浏览

MAETok

MAETok是一种基于掩码建模的图像标记化方法，通过自编码器结构学习更具语义丰富性的潜在空间，提升图像生成质量与训练效率。它支持高分辨率图像生成，具备多特征预测能力和灵活的潜在空间设计，适用于娱乐、数字营销、计算机视觉等多个领域。实验表明其在ImageNet数据集上表现优异。

AI项目与工具 2025年06月12日 67 点赞 0 评论 562 浏览

PartEdit

PartEdit是一种基于预训练扩散模型的细粒度图像编辑工具，通过优化部分标记实现对图像对象各部分的精准定位与编辑。其采用非二进制掩码和自适应阈值策略，确保编辑内容自然融合，保留原始细节。支持真实图像和多部分同时编辑，无需重新训练模型，适用于艺术设计、影视制作、广告等多个领域。

AI项目与工具 2025年06月12日 59 点赞 0 评论 566 浏览

UniRig

UniRig是由清华大学计算机系与VAST联合开发的自动骨骼绑定框架，基于自回归模型和交叉注意力机制，可高效生成高质量骨骼结构和蒙皮权重。其支持多种3D模型类型，涵盖动漫角色、有机与无机结构等，广泛应用于动画制作、游戏开发、虚拟角色设计等领域。项目提供开源代码和详细文档，助力提升3D动画制作效率与质量。

AI项目与工具 2025年06月11日 81 点赞 0 评论 580 浏览

轻闪PDF

AI驱动的PDF工具，提供编辑、转换、OCR识别、签名、注释、与PDF对话等功能，支持桌面端、移动设备与浏览器访问。

格式转换 2025年06月05日 78 点赞 0 评论 588 浏览

Teacher2Task

Teacher2Task是一个由谷歌团队研发的多教师学习框架，其核心在于引入教师特定的输入标记并重新构建训练过程，以减少对人工聚合方法的依赖。通过将训练数据转化为多个子任务，该框架能够从不同教师的多样化预测中学习，提高模型的性能和鲁棒性，同时降低标签不准确性的风险。它适用于机器翻译、图像理解、自然语言处理等多个领域，显著提升了数据利用效率。

AI项目与工具 2025年06月12日 39 点赞 0 评论 593 浏览

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具，其核心在于时空自适应压缩机制，可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析，实现了对冗余帧的剔除及帧特征的选择性降低，并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频，适用于视频内容分析、搜索索引、生成描述等多种应用场景。

AI项目与工具 2025年06月12日 65 点赞 0 评论 624 浏览

标记

首页

标记

列表

默认

浏览次数

发布日期