AI项目与工具

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具,基于超10万小时播客数据训练,支持零样本语音合成与说话人适配,可在0.33秒内生成1秒音频,适合实时与长内容合成。支持本地部署与API调用,应用于播客、有声书、视频配音、AI角色及新闻播报等领域,兼具高效性与灵活性。

Dashtoon

Dashtoon是一款基于人工智能技术的漫画创作平台,提供角色生成、背景处理、图像优化等功能,支持从故事板到漫画的全流程自动化操作。它致力于降低创作门槛,提升效率,同时为创作者提供发布与变现渠道,适用于个人娱乐、教育培训、商业营销及专业出版等场景。

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型,具备高效计算能力和紧凑结构,支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构,结合高效与精准优势,支持无位置编码(NoPE)处理128K tokens上下文。内存需求降低72%,推理时仅激活1B参数,适用于边缘设备部署、长文本分析及企业级应用开发,适合资源受限环境下的AI研究与

PhotoPrism

PhotoPrism是一款开源的AI照片管理工具,采用Go语言开发,支持用户在本地服务器上运行,确保数据隐私与安全性。它通过AI技术实现照片的智能分类与搜索,涵盖人物、物体和场景识别,还支持RAW、JPG等多种文件格式,提供面部识别、地理标签及WebDAV同步等功能,适用于个人、家庭、企业和教育机构等多样化需求。

MeetingMind

MeetingMind是一款利用AI技术自动转录会议音频并提取关键信息的工具,支持任务分配、决策追踪和风险识别等功能,适用于企业会议、远程协作、项目管理和教育培训等多种场景,显著提升会议效率和执行力。

ezsite AI

ezsite AI是一款无代码AI工具,可快速生成功能完善的网站和应用。用户仅需输入简单指令,系统即可在60秒内完成网站创建,支持支付、客户信息收集、AI聊天机器人、SEO优化及营销自动化等功能。平台提供多种模板,支持可视化编辑,适合中小企业、电商、营销落地页及初创公司使用。用户可通过不同版本满足个性化需求。

GenMAC

GenMAC是一款基于多代理协作的迭代框架,旨在解决文本到视频生成中的复杂场景生成问题。它通过任务分解为设计、生成和重新设计三阶段,结合验证、建议、修正和输出结构化子任务,利用自适应自路由机制优化视频生成效果。该工具可应用于电影制作、游戏开发、广告设计、教育培训和新闻报道等多个领域,显著提升视频生成的效率和质量。

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型,基于MoE架构,支持文本、图像、音频和视频等多种模态的输入输出,具备强大的理解和生成能力。模型在多个任务中表现优异,如图像识别、视频理解、语音问答等,适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性,为用户提供一体化智能体验。

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

ReHiFace

ReHiFace-S是一款由硅基智能团队开发的开源AI项目,专注于高保真、实时的人脸替换。该算法具备无需数据训练、高保真度换脸、支持多目标人脸替换、色彩矫正、一键快速部署、Gradio交互界面及支持ONNX格式等特点。ReHiFace-S适用于娱乐、影视制作、VR/AR等多个领域,具有实时处理能力、零样本推理、改进的人脸分割模型等功能。