模型

VACE

VACE是由阿里巴巴通义实验室推出的视频生成与编辑框架,支持文本到视频、参考生成、视频扩展、遮罩编辑等多种任务。其核心是Video Condition Unit(VCU),可整合多模态输入,实现任务灵活组合。支持480P和720P分辨率,适用于创意视频制作、视频修复、风格转换及互动创作等场景,具备高灵活性和广泛的应用潜力。

PP

PP-DocBee是百度飞桨推出的多模态文档理解模型,基于ViT+MLP+LLM架构,支持文字、表格、图表等多类型文档内容的精准识别与解析。具备高效的推理性能和高质量输出,适用于文档问答、信息提取等场景,支持灵活部署,为文档处理提供智能化解决方案。

Gemma 3

Gemma 3 是谷歌推出的开源人工智能模型,支持多语言、多模态处理,具备文本、图像及短视频分析能力。提供多种模型尺寸,适配不同硬件环境,优化了单 GPU/TPU 性能,推理速度提升显著。内置图像安全分类器,增强内容安全性。支持多种开发工具和部署方式,适用于人脸识别、物体检测、智能助手、文本分析等场景。

Reka Flash 3

Reka Flash 3 是一款由 Reka AI 开发的开源推理模型,拥有 21 亿参数,支持多模态输入(文本、图像、视频、音频),并可处理最长 32k 个令牌的上下文。它具备高效的推理能力和多语言支持,适用于日常对话、编码辅助、指令执行等多种场景。模型可在本地部署,支持 4 位量化以降低资源占用,适合广泛的应用需求。

子曰翻译2.0

子曰翻译2.0是网易有道推出的最新翻译大模型,通过数据优化、算法升级和严格评估体系,实现翻译质量与效率的显著提升。支持中英互译、专业领域翻译及多场景应用,涵盖学术、医疗、文学等领域,具备高准确性、流畅性和适应性,适用于多种翻译需求。

理想同学网页版

理想同学网页版是一款由理想汽车推出的AI智能助手,集成DeepSeek R1/V3 671B满血版模型,支持多模型切换、联网搜索、图像识别等功能。用户可通过文字、长文本或图片进行交互,支持360°视觉追踪,提升交互体验。适用于办公、学习、多设备协同等场景,支持网页与移动端同步,打造无缝智能服务生态。

Motion Anything

Motion Anything 是一款由多所高校与企业联合研发的多模态运动生成框架,可基于文本、音乐或两者结合生成高质量人类运动。其核心在于基于注意力的掩码建模和跨模态对齐技术,实现对运动序列的精细控制与动态优先级调整。该工具支持影视动画、VR/AR、游戏开发、人机交互及教育等多个应用场景,并配套提供 Text-Music-Dance (TMD) 数据集,推动多模态运动生成技术的发展。

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。

Gemini 2.0 Flash

Gemini 2.0 Flash是Google推出的多模态AI模型,支持文本与图像生成及对话式编辑,能根据自然语言生成连贯图像,并保持上下文一致性。其在长文本渲染方面表现优异,适用于广告、社交媒体、教育等领域。开发者可通过Google AI Studio或Gemini API进行测试和集成,广泛应用于创意插图、互动故事、设计辅助等场景。

TokenSwift

TokenSwift是由北京通用人工智能研究院开发的超长文本生成加速框架,可在90分钟内生成10万Token文本,效率较传统模型提升3倍,且保持输出质量。其核心优势包括多Token并行生成、动态KV缓存管理、上下文惩罚机制等技术,支持多种模型架构。适用于内容创作、智能客服、学术研究及编程辅助等场景。