模型 - 智狐AI导航

Gemma 2

Gemma 2是一款由谷歌DeepMind开发的开源人工智能模型，提供90亿和270亿参数版本。它具有卓越的性能、高效的推理速度和广泛的硬件兼容性，适用于各种应用场景。Gemma 2不仅支持多种AI框架，还提供了丰富的资源和工具，以支持开发者和研究人员负责任地构建和部署AI。

AI项目与工具 2025年06月12日 57 点赞 0 评论 845 浏览

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理，能够通过稀疏控制信号（如手动轨迹、面部关键点序列或音频）实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习，能够将多种控制信号组合使用，生成复杂的动画效果，并能生成较长的视频片段。 ---

AI项目与工具 2025年06月12日 22 点赞 0 评论 593 浏览

ExVideo

ExVideo是一种视频合成模型后调优技术，能够生成长达128帧的连贯视频，同时保持原始模型的生成能力。该技术通过优化3D卷积、时间注意力和位置嵌入等模块，使模型能够处理更长时间跨度的内容。ExVideo的核心优势在于其高效的后调优策略，减少计算资源需求，保持视频质量，适用于计算资源有限的情况。

AI项目与工具 2025年06月12日 57 点赞 0 评论 781 浏览

Diffutoon

Diffutoon是一款基于扩散模型的AI框架，旨在将现实风格的视频转换为动漫风格。该框架支持高分辨率视频处理，能够实现风格化、一致性增强、结构引导和自动着色等功能。此外，Diffutoon具备内容编辑功能，用户可通过文本提示调整视频细节，确保视觉效果和内容的一致性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 781 浏览

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频，生成高质量的立体声音频或多轨乐谱，并支持自动编辑功能。琴乐大模型采用先进的技术框架，包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术，确保生成的音乐符合音乐理论和人类审美标准。

AI项目与工具 2025年06月12日 33 点赞 0 评论 694 浏览

Unique3D

Unique3D是一款由清华大学团队开发的开源框架，专注于单张图像到3D模型的转换。它利用多视图扩散模型和法线扩散模型，结合多级上采样策略和ISOMER算法，能够在短时间内生成高保真度且纹理丰富的3D网格模型。Unique3D能够从单个2D图像生成3D网格模型、多个正交视图图像和法线贴图，并通过多级上采样过程提高图像分辨率，最终实现颜色和几何细节的高度整合。

AI项目与工具 2025年06月12日 28 点赞 0 评论 704 浏览

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

DeepMind推出的V2A（Video-to-Audio）模型能够将视频内容与文本提示相结合，生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作，还能与其他视频生成模型，如Sora、可灵或Gen 3等，进行集成，从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

AI项目与工具 2025年06月12日 21 点赞 0 评论 544 浏览

阶跃星辰推出移动端AI智能问答助手跃问APP

跃问是一款基于阶跃星辰Step系列通用大模型开发的移动应用，具备强大的文本和图像处理能力，能够高效完成内容创作、逻辑推理、数据分析等任务。该应用支持联网搜索、文档解析、推理速度优化，并具备拍照识图和语音输入功能。跃问还提供了高效阅读、智能问答、写作翻译和多端同步等功能，为用户提供便捷的信息获取和处理体验。

AI项目与工具 2024年01月01日 61 点赞 0 评论 588 浏览

Stability AI开源Stable Diffusion 3 Medium文生图模型

Stable Diffusion 3 Medium是一款由Stability AI开源的文本到图像生成模型，拥有20亿个参数，适用于消费级和企业级GPU。该模型具备照片级真实感、强大的提示理解和排版能力，以及高资源效率。此外，它还支持API试用，并得到了NVIDIA和AMD的支持，以优化其性能。Stability AI致力于开放和安全的AI应用，并计划持续改进SD3 Medium。

AI项目与工具 2024年01月01日 67 点赞 0 评论 509 浏览

Qwen2

Qwen2是由阿里云通义千问团队开发的大型语言模型系列，涵盖从0.5B到72B的不同规模版本。该系列模型在自然语言理解、代码编写、数学解题及多语言处理方面表现出色，尤其在Qwen2-72B模型上，其性能已超过Meta的Llama-3-70B。Qwen2支持最长128K tokens的上下文长度，并已在Hugging Face和ModelScope平台上开源。 ---

AI项目与工具 2024年01月01日 48 点赞 0 评论 585 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期