人工智能 - 智狐AI导航

Veo 3

Veo 3是谷歌推出的新一代视频生成模型，在I/O开发者大会上发布。它是首个能生成视频背景音效的模型，可合成画面并匹配人物对话和口型，支持1080P高质量视频生成，具备物理模拟与口型同步能力，可生成超过60秒的视频片段，并支持多种视觉风格。Veo 3整合了多项先进技术，适用于影视制作、广告营销及教育领域。

AI项目与工具 2025年06月11日 90 点赞 0 评论 734 浏览

Flow是谷歌推出的AI电影制作工具，整合了Veo 3、Imagen 4和Gemini 2.5等多个AI模型，能根据文本提示生成完整的电影场景或短片，保持连贯性。用户可通过“Camera Controls”操作镜头，“Scenebuilder”编辑场景，“Asset Management”管理创意元素，并通过“Flow TV”学习交流。目前仅对美国的谷歌AI Pro和AI Ultra订阅用户开放。

AI项目与工具 2025年06月11日 54 点赞 0 评论 705 浏览

Stitch

Stitch是谷歌实验室推出的基于生成式AI的工具，能够将简单的英语描述或图像快速转化为用户界面（UI）设计及前端代码。它基于Gemini 2.5 Pro模型的多模态能力，支持文本、图像输入，并能识别图像生成UI组件。Stitch可生成简洁可用的前端代码，支持HTML、CSS和JavaScript，同时与Figma无缝集成，便于团队协作和优化设计。其功能包括文本生成设计、图像生成设计、代码生成与优

AI项目与工具 2025年06月11日 91 点赞 0 评论 724 浏览

Sparkify

Sparkify是谷歌推出的AI动画视频生成工具，基于Gemini 2.5和Veo 2模型。用户输入问题或复杂概念后，Sparkify能在2分钟内生成直观的动画短视频，讲解知识点。其多模态处理能力结合Google Search数据，确保内容准确且与最新信息同步。适用于教育、科普和企业培训等领域，提升理解效率和传播效果。目前处于内测阶段，可通过官网加入等候列表。

AI项目与工具 2025年06月11日 24 点赞 0 评论 601 浏览

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 627 浏览

Google Beam

Google Beam是谷歌推出的AI驱动的3D视频通信平台，能够将2D视频流转换为逼真的3D效果，提升远程通话的自然度和直观性。用户可实现眼神交流和细微表情识别，增强沟通效果。支持实时语音翻译，打破语言障碍，并基于Google Cloud提供企业级可靠性，适用于远程协作、教育、医疗、国际合作和个人社交等多种场景。

AI项目与工具 2025年06月11日 76 点赞 0 评论 470 浏览

EmoxCare

EmoxCare是一款免费的AI心理咨询师，帮助用户进行心理健康管理。用户可以通过文字、语音等方式与EmoxCare交流，获取情感支持和指导。其功能包括情绪追踪与聊天、冥想与正念练习、心理健康评估以及情绪调节与应对。EmoxCare提供自我疗愈练习和心理健康报告，但信息仅供参考，不能替代专业医疗建议。

AI项目与工具 2025年06月11日 26 点赞 0 评论 728 浏览

3DTown

3DTown是由哥伦比亚大学联合Cybever AI等机构开发的AI工具，能够从单张俯视图生成高精度的3D城镇场景。它采用区域化生成和空间感知3D修复技术，将输入图像分解为重叠区域，分别生成3D内容并修复缺失结构，确保几何和纹理一致性。支持多种风格的场景生成，适用于虚拟世界构建、游戏开发、机器人模拟等领域，优于现有方法。

AI项目与工具 2025年06月11日 17 点赞 0 评论 547 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 536 浏览

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型，基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异，平均准确率达70.7%，超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现，适用于法律、金融、科研等多个领域。

AI项目与工具 2025年06月11日 24 点赞 0 评论 691 浏览

人工智能

首页

人工智能

列表

默认

浏览次数

发布日期