AI

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。

Wisecut

Wisecut 是一款利用人工智能技术的在线视频编辑工具,其核心功能包括 AI 高光检测、自动字幕生成与多语言翻译、基于语音的故事板编辑、智能背景音乐匹配以及静音段落自动移除等。它特别适合用于社交媒体内容创作、视频博客、在线教育、产品营销和企业培训等领域,帮助用户快速制作高质量的短视频或音频内容。

MUSICHERO

MUSICHERO是一款利用AI技术实现文本到音乐转换的在线生成工具,基于Suno V3.5算法,支持用户通过简单描述快速生成专业级别的音乐作品,涵盖流行、摇滚、电子等多种风格。该平台具备直观易用的特点,支持免费体验及定制化设置,适用于音乐制作、内容创作、教育培训等多个领域。

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型,支持40种语言及22种中文方言,具备高精度语音转文字能力。采用CTC-Attention架构,结合E-Branchformer和Transformer技术,提升识别效率与准确性。模型开源,支持自定义语言与地区设置,适用于会议记录、语音输入、智能助手等多种场景。

Q.AI

Q.AI是一款基于AI技术的视频创作平台,涵盖AI写真、视频生成、文生图及帧库管理等功能。它能够将文字描述转化为高质量的视频或图像,并提供智能配音、自动字幕匹配等辅助工具,助力个人与企业快速完成视频创作。主要应用场景包括视频制作、内容创作、社交媒体运营、广告营销以及教育培训等领域。

麦芽岛

麦芽岛是一款由科大讯飞开发的AI虚拟角色互动聊天应用,允许用户创建和自定义虚拟角色,进行沉浸式对话体验,提供情感陪伴及剧情互动功能。它支持多种角色选择,包括名著、历史及娱乐领域的经典形象,并设有麦岛广场供用户探索和互动。

LatentSync

LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需中间3D或2D表示,可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法,提升视频时间一致性,并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。

PopShort.AI

PopShort.AI 是一款利用人工智能技术打造的短剧创作平台,专注于提供沉浸式互动体验和创新剧情。平台每周更新短剧内容,用户可与虚拟角色对话,体验独家剧情,并通过访问庞大的AI故事库参与创作。PopShort.AI 支持多种视频风格,包括短剧、互动故事、定制视频等,满足多样化的创作需求。

VALL-E

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为...

ArtiPro

ArtiPro,一款集prompt搜索、Al图库、AI创作等为一体的在线产品。