模型

AI方程式

AI方程式,文本到图像生成AI模型提示语分享平台,无论您是寻找创意灵感、个性化设计还是艺术创作的工具,AI方程式将成为您的创意合伙人。

谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效

DeepMind推出的V2A(Video-to-Audio)模型能够将视频内容与文本提示相结合,生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作,还能与其他视频生成模型,如Sora、可灵或Gen 3等,进行集成,从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

Objaverse

Objaverse 是一个为3D领域提供巨大资源的数据库,它不仅支持 AI 模型的训练和3D内容的生成,还与流行的3D编辑软件 Blender 兼容。

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

MaskSearch

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架,通过检索增强掩码预测(RAMP)任务提升大型语言模型(LLM)的智能体搜索能力。该工具利用外部知识库和搜索工具预测被掩盖的关键信息,增强模型对复杂问题的理解和回答能力。结合SFT和强化学习(RL)训练方法,采用多智能体协同生成思维链数据,并引入课程学习策略优化模型性能。适用于智能客服、教育、企业搜索及机器学习模型调试等多个场景。

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型,具备结构化推理和透明性,支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试,涵盖4000多个推理步骤,用于全面评估推理能力。其性能优于多个开源模型,适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景,具有高准确性和可解释性。

Resume Matcher

Resume Matcher 是一个免费的开源项目,专门为开发者设计,以简化简历创建过程并加速求职搜索。

Reka Flash 3

Reka Flash 3 是一款由 Reka AI 开发的开源推理模型,拥有 21 亿参数,支持多模态输入(文本、图像、视频、音频),并可处理最长 32k 个令牌的上下文。它具备高效的推理能力和多语言支持,适用于日常对话、编码辅助、指令执行等多种场景。模型可在本地部署,支持 4 位量化以降低资源占用,适合广泛的应用需求。

阶跃星辰推出移动端AI智能问答助手跃问APP

跃问是一款基于阶跃星辰Step系列通用大模型开发的移动应用,具备强大的文本和图像处理能力,能够高效完成内容创作、逻辑推理、数据分析等任务。该应用支持联网搜索、文档解析、推理速度优化,并具备拍照识图和语音输入功能。跃问还提供了高效阅读、智能问答、写作翻译和多端同步等功能,为用户提供便捷的信息获取和处理体验。