开源

Bark

Bark是一款开源的文本到音频转换模型,由Suno AI开发,能够生成逼真的多语言语音及多种音频类型,包括音乐和背景噪音,并支持非语言交流的声音。该模型提供预训练模型,适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

MarkItDown

MarkItDown是一款由微软推出的开源文档转换工具,支持多种文件格式(如PDF、Office文档、图像、音频等)转换为Markdown格式。它具备OCR文字识别、语音转文字、元数据提取等功能,适用于文档归档、内容发布、数据挖掘、学术研究等多个场景,旨在简化文件处理流程,提升工作效率。通过提供简单易用的API接口,MarkItDown成为开发者友好型工具。

FinRobot

FinRobot是一款开源的AI代理平台,专注于金融领域的应用,基于大型语言模型(LLMs)构建能够执行复杂分析和决策的专业金融AI代理。平台通过金融思维链(CoT)提示功能提升分析能力,并通过开源方式促进AI在金融决策中的广泛应用。架构涵盖金融AI代理层、金融LLM算法层、LLMOps和DataOps层以及多源LLM基础模型层,支持市场预测、文档分析及交易策略等多种金融专业AI代理。

Sky

Sky-T1是由加州大学伯克利分校NovaSky团队开发的开源推理AI模型,具备高性价比和强大推理能力。其训练成本仅450美元,数据来源经过优化处理,可在数学、编程和科学领域表现出色。模型支持用户从零复现,适用于教育、科研及软件开发等场景。在MATH500和LiveCodeBench测试中,Sky-T1表现优于部分早期OpenAI模型,展现出良好的实用价值。

Whisper

Whisper是一个开源的自动语音识别系统,经过68万小时的多语言和多任务监督数据训练

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型,支持40种语言及22种中文方言,具备高精度语音转文字能力。采用CTC-Attention架构,结合E-Branchformer和Transformer技术,提升识别效率与准确性。模型开源,支持自定义语言与地区设置,适用于会议记录、语音输入、智能助手等多种场景。

Xiaomi MiMo

Xiaomi MiMo 是小米推出的推理型大模型,具备强大的数学推理与代码生成能力。通过预训练与后训练相结合,利用大量高价值语料及强化学习算法,在 7B 参数规模下实现超越更大模型的表现。支持多场景应用,包括教育、科研、软件开发等,已开源至 HuggingFace,便于开发者使用与研究。

VideoFusion

VideoFusion 是一款开源的短视频处理工具,支持自动去除黑边、水印和字幕,智能旋转视频方向,提升画质,并兼容多种视频格式。具备批量处理、自定义设置和实时进度反馈功能,适用于视频创作者、自媒体运营及企业等多场景应用。

Poetry2Image

Poetry2Image是一个由哈尔滨工业大学提出的迭代校正框架,专门用于中文古诗词的图像生成。该工具通过自动化反馈和校正机制,提升了诗歌与图像的一致性,解决了文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。Poetry2Image具备搜索翻译、生成初始图像、提取关键元素、图像修正及迭代优化等功能,与多种图像生成模型结合使用时,其元素完整性和语义一致性表现优异,适用于古诗词

START

START是由阿里巴巴集团与中科大联合研发的工具增强型推理模型,通过集成外部工具(如Python代码执行器)提升大型语言模型的推理能力。其核心在于“Hint-infer”和“Hint-RFT”技术,结合长链推理与工具调用,显著提高复杂数学、科学问题及编程任务的准确性和效率。该模型具备自我调试、多策略探索和自学习能力,适用于科研、教育、编程等多个领域,是首个开源的长链推理与工具集成模型。