多语言支持

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型,支持40种语言及22种中文方言,具备高精度语音转文字能力。采用CTC-Attention架构,结合E-Branchformer和Transformer技术,提升识别效率与准确性。模型开源,支持自定义语言与地区设置,适用于会议记录、语音输入、智能助手等多种场景。

面灵AI

面灵AI是一款基于DeepSeek大模型的智能面试辅助工具,支持实时问题解析、个性化面试策略生成、多场景模拟面试及面试反馈报告等功能。其覆盖200+行业高频场景,提供多语言支持,适用于求职者提升面试技巧、熟悉流程并优化表现。用户可通过官网注册并选择不同套餐进行使用。

Translate Image

Translate Image 是一款基于 AI 技术的图片翻译工具,支持多语言翻译、上下文感知、技术术语识别等功能。可处理产品图片、电商列表、漫画、照片等,适用于电商、社交媒体和文档处理等多种场景。支持多种图片格式,提供智能文字移除与文本保护功能,翻译准确率高,操作便捷。

Actor Mode

Actor Mode 是由 ElevenLabs 开发的 AI 语音生成工具,支持用户通过自身声音生成风格一致的语音内容。它具备多语言支持、语音属性调节、即时生成等功能,适用于有声读物、视频配音、虚拟助手等多个领域。用户可通过录制或上传音频,让 AI 提取语音特征并生成符合要求的语音输出,提高创作效率与个性化表达。

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统,采用轻量级扩散模型,支持中英文及混合语音合成,具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模,可快速生成高质量语音,适用于教育、内容制作、语音交互等多个领域。

BizGen

BizGen是由清华大学与微软研究院联合开发的AI信息图生成工具,能将长篇文章自动转化为专业级的信息图和幻灯片。其核心技术包括高质量数据集Infographics-650K和“布局引导的交叉注意力机制”,可精准控制图像中各区域的文本与视觉元素。支持多语言和多种风格,适用于商业汇报、产品展示、学术研究等多个场景,具备高准确性与排版质量。

Fin

Fin-R1是由上海财经大学与财跃星辰联合开发的金融领域推理大模型,基于Qwen2.5-7B-Instruct架构,通过两阶段训练提升金融推理能力。其支持金融数据推理、代码生成、风险控制、ESG分析等多种功能,具备多语言支持与轻量化设计,适用于智能风控、投资辅助、量化交易等场景。模型在权威评测中表现优异,具有较高的实用价值。

Mureka V6

Mureka V6是昆仑万维推出的AI音乐创作平台基座模型,支持多语言音乐生成及纯音乐创作。采用自研ICL技术,提升音乐结构连贯性与情感表达。用户可通过文本、音频或音色参考进行个性化创作,适用于多种音乐风格与情绪。支持从简单模式到高级模式的灵活操作,广泛应用于音乐爱好者、专业音乐人及内容创作等领域。

Mureka O1

Mureka O1是昆仑万维推出的全球首款音乐推理大模型,采用“思维链”技术提升音乐生成质量与创作效率。支持多语言AI音乐创作,涵盖多种风格与情感表达,具备歌词生成、风格控制、音色克隆等功能。提供API接口与模型微调能力,适用于广告、影视、游戏、教育等多个场景,助力创作者高效完成音乐创作任务。

Upheal

Upheal是一款面向心理健康专业人士的AI平台,提供自动化的进展记录和视频会话功能。它支持多种治疗形式和多语言环境,具备会话分析、笔记编辑和模板自定义等功能,并可与EHR系统集成。其灵活的定价方案适用于不同需求,助力治疗师提升工作效率,专注于核心治疗工作。