多模态 - 智狐AI导航

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 730 浏览

童语故事iMageStoryAi

一个基于数字分身和故事模型的AI儿童故事生成类Al产品，童语故事iMageStoryAi通过Al能力创造无限的潜能，让每个孩子健康快乐成长。

Ai绘画生成 2025年06月05日 93 点赞 0 评论 729 浏览

知乎直答

知乎推出的一款使用AI大模型技术的全新搜索问答智能产品。它以知乎社区的优质内容为核心，结合多种数据源，为用户提供简略和深入两种答案生成结果

AI搜索问答 2025年06月05日 36 点赞 0 评论 729 浏览

CAR（Certainty-based Adaptive Reasoning）是字节跳动联合复旦大学推出的自适应推理框架，旨在提升大型语言模型（LLM）和多模态大型语言模型（MLLM）的推理效率与准确性。该框架通过动态切换短答案和长形式推理，根据模型对答案的置信度（PPL）决定是否进行详细推理，从而在保证准确性的同时节省计算资源。CAR适用于视觉问答（VQA）、关键信息提取（KIE）等任务，在数学

AI项目与工具 2025年06月11日 73 点赞 0 评论 728 浏览

云从科技从容大模型

云从科技从容大模型是一个多功能、跨行业的AI大模型，它通过集成云从科技的核心技术，为用户提供个性化、智能化的服务和解决方案。

创作工具 2026年06月22日 0 点赞 0 评论 728 浏览

CDial

CDial-GPT是一项由清华大学研发的基于大型中文对话数据集LCCC的预训练对话生成模型。该模型提供LCCC-base和LCCC-large两个版本的数据集，并具备预训练、微调、多模态学习等功能，能够生成高质量的对话回应。其应用场景涵盖客户服务、智能助手、在线教育等多个领域。

AI项目与工具 2025年06月12日 63 点赞 0 评论 728 浏览

OmAgent

OmAgent是由Om AI与浙江大学滨江研究院联合开发的多模态语言代理框架，支持文本、图像、视频等多种输入形式，简化设备端智能代理的开发流程。它具备高效模型集成、灵活算法接口和复杂任务处理能力，适用于视频监控、内容推荐、教育辅助等场景，提升设备智能化水平和用户体验。

AI项目与工具 2025年06月12日 97 点赞 0 评论 728 浏览

KeySync

KeySync是一种高分辨率口型同步工具，由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架，结合掩码策略和视频分割模型，实现音频与唇部动作的精准对齐。支持高清视频生成，具备遮挡处理、减少表情泄露等功能，在视觉质量、时间连贯性和同步精度上优于现有方法，适用于自动配音、虚拟形象、视频会议等多场景应用。

AI项目与工具 2025年06月11日 32 点赞 0 评论 727 浏览

AI推理模型有哪些？13个支持深度思考的推理模型

本文介绍了13款支持深度思考的AI推理模型，涵盖数学、代码、自然语言推理等多个领域。这些模型通过强化学习和大数据分析，能够高效处理复杂问题，提供精准的决策支持。部分模型具备多模态处理能力、透明推理过程及开源特性，适用于不同应用场景，如教育、医疗和科研等。

AI项目与工具 2025年06月11日 88 点赞 0 评论 727 浏览

TaoAvatar

TaoAvatar是阿里巴巴推出的高保真、轻量级3D全身虚拟人技术，基于3D高斯溅射（3DGS）实现照片级真实感的虚拟形象生成。支持多模态驱动，具备高帧率实时渲染能力，适用于AR、移动设备及高清显示平台。其轻量级架构结合深度学习优化，提升了运行效率与交互自然度，广泛应用于电商直播、全息通信、虚拟会议、在线教育及娱乐等领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 727 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期