模型

SCoRe

SCoRe是一种由谷歌DeepMind提出的基于强化学习的多轮训练方法,旨在提高大型语言模型的自我纠错能力。它通过模型自动生成的数据进行训练,并采用正则化约束与奖励机制,有效提升了模型在数学、编程等任务中的准确性。此外,SCoRe能够适应训练与推理过程中的数据分布差异,展现出较强的灵活性与实用性。

LTXV

LTXV-13B 是 Lightricks 推出的开源 AI 视频生成模型,拥有 130 亿参数,可在消费级显卡上高效运行,生成速度比同类产品快 30 倍。支持文本、图像转视频及多关键帧调节,具备多尺度渲染和高压缩率技术,适用于影视、广告、游戏、教育等多个领域,提升内容创作效率与质量。

Goedel

Goedel-Prover是一款由多所高校联合开发的开源大型语言模型,专注于自动化数学问题的形式化证明生成。它通过将自然语言数学问题转化为形式语言(如Lean 4),生成准确且完整的证明过程。采用专家迭代方法持续优化模型性能,在多项基准测试中表现优异。该工具可应用于数学研究、教学、软件验证及AI算法验证等领域,具备强大的数学推理能力和广泛的应用前景。

Lobe Vidol

Lobe Vidol是一个开源的数字人创作平台,支持用户轻松创建和定制虚拟偶像。它具备流畅的对话交互、背景设定、动作库、角色编辑功能,还支持MMD舞蹈和PMX舞台加载。通过TTS与STT技术,Lobe Vidol实现了语音与文本的双向转换,提供沉浸式用户体验。 ---

AvatarFX

AvatarFX是由Character.AI开发的AI视频生成工具,通过上传图片和选择语音,可生成角色说话、唱歌和表达情感的动态视频。支持多角色、多轮对话及长视频生成,具备高时间一致性。采用扩散模型与音频条件化技术,确保动作与语音同步。适用于互动故事、虚拟直播、娱乐表演及教育内容创作,提供高效、高质量的视频生成体验。

TripoSF

TripoSF是由VAST推出的新型3D基础模型,采用SparseFlex表示方法和稀疏体素结构,显著降低内存占用并提升高分辨率建模能力。其“视锥体感知的分区体素训练”策略优化了训练效率,使模型在细节捕捉、拓扑结构支持和实时渲染方面表现突出。实验数据显示,TripoSF在Chamfer Distance和F-score等关键指标上分别降低82%和提升88%。适用于视觉特效、游戏开发、具身智能及产品

MinMo

MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型,具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互,适用于智能客服、教育、医疗等多个领域,提升人机对话的自然度与效率。

探一下

探一下是一款依托于多模态大模型技术的AI视觉搜索工具,用户可通过其摄像头识别花草、宠物、潮玩等物体,获取旅游讲解、商品药品详情等信息,同时具备趣味解读图片的功能,支持文字翻译与场景触发滤镜,适用于多种生活场景。 ---

NotebookLlama

NotebookLlama是一款基于Meta开发的开源工具,能够将PDF文档自动转换为高质量播客内容。它通过LLaMa模型完成PDF预处理、文本转播客脚本、增加戏剧性元素以及文本转语音合成等步骤,无需人工干预即可生成专业水准的播客。NotebookLlama提供了详细的教程和操作指南,并支持多种应用场景,包括教育、新闻、企业培训和有声书制作等。