场景

VideoPhy

VideoPhy是一款由UCLA和谷歌研究院联合开发的基准测试工具,旨在评估视频生成模型的物理常识能力。它包含688条描述性字幕,通过人类和自动评估方式,衡量生成视频是否符合物理规则。VideoPhy不仅揭示了现有模型的不足,还推出了自动评估工具VideoCon-Physics,以推动模型性能的提升。其应用场景广泛,包括视频生成模型开发、计算机视觉研究、教育与培训以及娱乐产业等。

悟道大模型

北京智源研究院开发的一系列超大规模智能模型系统,悟道大模型旨在在语言处理领域达到或超越国际先进水平。

腾讯混元文生视频

腾讯混元文生视频是一款利用AI技术生成高质量视频内容的工具,可根据文本提示生成具有大片质感的视频。它支持多语言输入,涵盖高清画质、流畅镜头切换及自然场景模拟等功能,适用于电影制作、广告设计、教育培训等多种应用场景。

CAT4D

CAT4D是一种由Google DeepMind、哥伦比亚大学及加州大学圣地亚哥分校共同开发的工具,它利用多视图视频扩散模型,从单目视频中生成动态3D(4D)场景表示。该工具可以合成新视图、重建动态3D模型,并支持独立控制相机视点和场景动态,适用于电影制作、游戏开发、虚拟现实等多种领域。

ZAKER

机器人客服、智能客服、ai机器人客服

T2I

T2I-R1是由香港中文大学与上海AI Lab联合开发的文本到图像生成模型,采用双层推理机制(语义级和 Token 级 CoT),实现高质量图像生成与复杂场景理解。其基于 BiCoT-GRPO 强化学习框架,结合多专家奖励模型,提升生成图像的多样性和稳定性。适用于创意设计、内容制作、教育辅助等多个领域,具有广泛的应用潜力。

Generative Omnimatte

Generative Omnimatte 是一种基于 AI 的视频编辑技术,通过其核心模型 Casper 实现视频的多层次分解与编辑。它能够自动分离物体与背景,并支持动态背景处理及多对象场景的精细编辑。主要功能包括视频分层、对象移除、背景替换、Trimask 控制等,广泛应用于电影制作、广告设计、游戏开发及虚拟现实领域。

灵格AI英语

灵格AI英语是一款基于AI技术的英语学习工具,提供视频学习、AI导师互动、发音纠正、场景对话练习等功能,帮助用户提升听说能力。平台支持个性化学习路径,涵盖日常口语、知识学习、考试备考等多场景应用,适合不同需求的学习者使用。

QAnything

QAnything是一款由网易有道开发的基于本地知识库的问答系统,致力于支持任意格式文件或数据库的问答。它支持多种文件格式和数据库,使用户能够在没有网络连接的情况下离线安装和使...

Diffuse to Choose

一种基于扩散的图像修复模型,主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节,适用于在线购物等虚拟试穿场景中的图像修复任务。