学习

易我人声分离

易我人声分离是一款基于AI技术的音频编辑工具,可智能分离音频或视频中的人声与背景音乐,支持多种格式,并具备一键操作的便捷性。它不仅适用于音乐创作和视频剪辑,还支持精确分离乐器声音,广泛应用于语言学习、影视后期制作等多个领域。

SwiftAgent 2.0

SwiftAgent 2.0 是一款依托于大模型与 AI Agent 技术的企业级数据分析工具,旨在帮助企业实现从数据到决策的智能化升级。其主要特点包括统一语义层构建、多源数据集成、实时交互体验以及持续学习优化机制,广泛应用于业务决策支持、销售预测、客户洞察及财务规划等多个领域。

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架,支持多模态输入(如图片、文字、视频等)生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化,具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景,有效降低音乐创作门槛,提升创作效率与个性化体验。

SeedEdit

SeedEdit是一款基于自然语言指令的通用图像编辑工具,能够实现修图、换装、风格转换等多种编辑功能。它在图像重建与生成之间找到最佳平衡,支持零样本学习和多轮编辑操作,确保高质量输出。SeedEdit适用于社交媒体、广告、电商、艺术创作等多个领域,提供从简单调整到复杂创意的全面解决方案。

Slide Dish

Slide Dish是一款旨在提升家庭烹饪与摆盘技能的移动应用,其核心功能包括AI驱动的食谱生成、详细的烹饪指导、摆盘创意以及购物清单管理。用户可依据现有食材或个人偏好获取定制化食谱,并通过社交平台与其他烹饪爱好者交流心得。此应用适用于家庭厨师、食材管理者、特殊饮食需求者以及烹饪初学者,帮助他们在日常烹饪、节庆宴请及技能提升中实现更佳表现。

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。

Alice

一个基于ICP的自主AI代理,Alice通过利用大型语言模型如DeepSeek进行链上决策,可以通过智能化操作管理代币、挖掘BOB以及治理生态系统。

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

DCEdit

DCEdit是一款基于双层控制机制的图像编辑工具,结合精确语义定位策略与视觉、文本自注意力优化,提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型,支持复杂场景下的精细编辑任务,如对象替换、颜色调整等,适用于广告、影视、社交媒体等多个领域。

33台词

通过台词找影片的网站,找到相关影片后,支持视频片段预览、截图、查看台词上下文、以及视频片段截取下载。