模型

STIV

STIV是一款由苹果公司开发的视频生成大模型,具有8.7亿参数,擅长文本到视频(T2V)及文本图像到视频(TI2V)任务。它通过联合图像-文本分类器自由引导(JIT-CFG)技术提升生成质量,并结合时空注意力机制、旋转位置编码(RoPE)及流匹配训练目标优化性能。STIV支持多种应用场景,包括视频预测、帧插值、长视频生成等,适用于娱乐、教育、广告及自动驾驶等多个领域。

RAGFlow

RAGFlow是一个开源的RAG(Retrieval-Augmented Generation)引擎,通过深度学习模型解析和理解文档内容,并增强生成能力。它提供了多种功能,包括自动化工作流、包管理、安全漏洞检测与修复、即时开发环境、AI辅助代码编写以及代码审查。RAGFlow的技术原理涵盖了文档理解、检索增强、生成模型、注意力机制、多模态处理、上下文融合和优化算法。该工具适用于内容创作辅助、数据摘

TenereTeam AI工具集

TenereTeam为用户提供了一个广泛的目录,其中包含35个类别的1000 +多个创新AI工具。这些工具涵盖了人工智能的各个方面,包括文案、图像生成和 ChatGPT。

小爱同学 AI 助手

小爱同学 AI 助手是一款功能全面、智能化程度高的多模态AI助手。它不仅能够提供丰富的信息查询和知识问答服务,还能通过智能分析和建议,帮助用户更高效地规划生活和工作。

AingDesk

AingDesk 是一款开源的 AI 模型部署工具,支持一键安装上百款 AI 模型,降低使用门槛。具备联网搜索功能,提升回答准确性;提供模型共享与多语言支持,便于团队协作与跨语言使用。内置模型管理器,优化本地资源利用,适用于学习、办公及学术研究等多种场景。

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架,通过轨迹分割一致性蒸馏(TSCD)、人类反馈学习(ReFL)和分数蒸馏等技术,显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时,大幅减少了推理步骤,实现了快速生成高分辨率图像,推动了生成式AI技术的发展。

万兴天幕多媒体大模型

一个涵盖了视觉、音频、语言等多模态AI生成和优化能力的多媒体大模型,万兴天幕多媒体大模型核心功能包括一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等。