模型

AutoDroid

AutoDroid-V2是由清华大学人工智能产业研究院开发的基于小型语言模型(SLM)的移动端GUI自动化工具,支持多步脚本生成与执行,提升任务完成效率并减少对云端模型的依赖。其核心功能包括自动化UI操作、代码生成与执行、应用文档生成,适用于日常辅助、办公、测试、智能家居及医疗等多个场景,具有较高的实用性和技术前瞻性。

Live3D

Live3D是一款面向虚拟主播(VTuber)的综合工具套件,提供面部追踪、3D形象定制、动画制作及直播互动等功能。其包含VTuber Maker、Editor、Gallery等组件,支持手部追踪、VRM模型编辑及AI动作捕捉,适用于虚拟直播、内容创作、在线教育等多种场景。该工具具备丰富的资源库和持续更新机制,适合个人与专业创作者使用。

EnerVerse

EnerVerse是由智元机器人团队开发的首个机器人4D世界模型,基于自回归扩散模型与稀疏记忆机制,实现未来具身空间的高效生成与动作规划。其核心技术包括逐块生成、时空注意力UNet结构、自由锚定视角(FAV)及Diffusion策略头,显著提升机器人在复杂任务中的表现。该模型已在自动驾驶、工业装配、医疗辅助等多个领域展现出广泛应用潜力。

Ingredients

Ingredients是一款基于多身份图像与视频扩散Transformer的视频生成框架,支持多身份特征的高效整合与动态分配。其核心模块包括面部提取器、多尺度投影器和ID路由器,能够保持身份一致性并生成高质量视频内容。无需额外训练即可实现个性化视频制作,适用于娱乐、广告、教育等多个领域。

MultiBooth

MultiBooth是一种由多所高校和研究机构联合开发的多概念图像生成工具,能够根据文本提示生成包含多个指定概念的高质量图像。其核心技术包括单概念学习和多概念整合,采用多模态编码器、自适应归一化和区域定制化模块,实现高效、精准的图像生成。支持插件式架构,具备良好的扩展性和灵活性,适用于创意设计、广告、教育、电商及科研等多个领域。

TransPixar

TransPixar是由多所高校及研究机构联合开发的开源文本到视频生成工具,基于扩散变换器(DiT)架构,支持生成包含透明度信息的RGBA视频。该技术通过alpha通道生成、LoRA微调和注意力机制优化,实现高质量、多样化的视频内容生成。适用于影视特效、广告制作、教育演示及虚拟现实等多个领域,为视觉内容创作提供高效解决方案。

Fineshare VoiceTrans

Fineshare VoiceTrans 是一款支持实时变声的 AI 工具,可将声音转换为多种角色或性别,保留原有情感与语调。提供丰富的音效库、声音实验室和预设声音包,适用于游戏、直播、配音等场景。用户可通过不同订阅计划获得无限使用权限和定制服务,提升创作与互动体验。

Singify

Fineshare Singify是一款在线AI歌曲翻唱生成工具,提供超过1000种声音模型,支持多种输入方式,如搜索、上传或录音,并允许用户调整音调、节奏等参数。其生成音乐免版税,适用于个人娱乐、社交媒体分享、音乐教学及广告制作等多个场景。平台界面友好,适合各类音乐创作者和爱好者使用。

星火人设

星火人设是科大讯飞推出的AI角色模拟工具,支持人物设定、剧情演绎与语言风格控制,具备会话记忆和推理能力。用户可自定义虚拟角色,提升交互的情感化与自然度。适用于医疗咨询、健康管理、虚拟互动、社交聊天及客户服务等多个场景,满足多样化需求。

rStar

rStar-Math是由微软亚洲研究院研发的数学推理工具,采用蒙特卡洛树搜索(MCTS)驱动的深度思考机制,使小型语言模型在数学推理方面达到或超越大型模型水平。通过代码增强的推理轨迹生成、过程偏好模型(PPM)训练和四轮自我进化策略,显著提升了模型的准确率与自我反思能力。该工具已在多个数学基准测试中取得优异成绩,适用于教育、科研、金融、工程和数据分析等多个领域。