多模态 - 智狐AI导航

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列，具备从5.9M到632.1M参数的多种模型，适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略，训练效率比同类模型高2至3倍，在多模态任务中表现优异。支持可变大小patch输入，兼具灵活性与高效性，广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

AI项目与工具 2025年06月11日 58 点赞 0 评论 585 浏览

星野app

星野app是一款功能强大的AI聊天机器人和智能对话工具，有趣的开放剧情和逼真的AI聊天，让你体验真正的聊天互动。

3D&游戏 2025年06月05日 83 点赞 0 评论 584 浏览

VersaGen

VersaGen是一款基于生成式AI的文本到图像合成工具，支持多样化视觉控制和灵活的创意表达。通过适配器训练和优化策略，VersaGen将视觉信息融入生成过程中，显著提升了图像质量和用户体验。该工具适用于创意设计、数字艺术、广告营销、游戏开发及影视制作等多个领域，为用户提供了高效且直观的视觉创作解决方案。

AI项目与工具 2025年06月12日 19 点赞 0 评论 584 浏览

Klavis AI

Klavis AI 是一个基于 MCP 协议的开源平台，提供稳定可靠的 MCP 服务器和多客户端集成能力。支持多种工具定制化配置，内置身份验证功能，保障安全性。平台采用分布式架构，适用于大规模用户场景，并通过 API 实现灵活部署与管理，适用于 AI 开发、数据处理、内容创作及企业协作等多种应用场景。

AI项目与工具 2025年06月11日 23 点赞 0 评论 584 浏览

Tough Tongue AI 2.0

Tough Tongue AI 2.0 是一款多模态对话训练工具，适用于面试、职场沟通、销售谈判等多种场景。用户可自定义AI角色与语气，通过视频和音频反馈练习非语言沟通技巧，并获得个性化反馈以提升表达能力。支持多语言使用，可无限重试，便于反复练习。具备嵌入功能，方便集成到其他平台。

AI项目与工具 2025年06月12日 61 点赞 0 评论 583 浏览

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型，结合多模态大语言模型与扩散模型，支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 583 浏览

AI教师助手

AI教师助手是北京外研在线数字科技有限公司推出的一款多功能教学辅助工具，它通过智能化技术帮助教师提高教学效率，同时也为学生提供个性化的学习体验。

创作工具 2026年06月22日 0 点赞 0 评论 582 浏览

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型，能够将静态图像转化为动态视频，具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构，支持多模态输入，包括中文文本提示和参考图像，实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首，生成高清 1080P 视频，优化时间一致性与运动规律性，适用于广告、影视、游戏开发和内容创作等多个领域。

AI项目与工具 2025年06月11日 95 点赞 0 评论 582 浏览

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具，集成了自回归和离散扩散建模技术，可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率，减少了采样步骤，适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 582 浏览

Mistral OCR

Mistral OCR 是 Mistral AI 推出的高效 OCR 工具，支持多语言、多格式文档处理，准确率高达 99.02%。具备结构化输出、高速处理、多模态识别及 Doc-as-prompt 功能，适用于科研、文化遗产保护及企业文档管理等场景。

AI项目与工具 2025年06月12日 76 点赞 0 评论 581 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期