生成

VidTok

VidTok(Video Tokenizer)是一款由微软开发的开源视频处理工具,通过高效的算法将视频内容转化为“视频词”,支持连续与离散分词化,具有灵活的压缩率和多样的隐空间,适用于视频生成、内容建模及数据压缩等场景。其混合模型架构结合卷积与采样模块,辅以有限标量量化技术,实现了高质量视频重建与高效数据处理。

Enhance

Enhance-A-Video是一款由多所顶尖高校联合研发的视频生成增强算法,专注于提升AI生成视频的质量,特别是在对比度、清晰度及细节真实性方面具有显著优势。其核心技术基于时间注意力机制优化,无需额外训练即可高效提升视频效果,适用于视频创作、学术研究、在线平台等多个领域。

联通元景

联通元景(UniT2IXL)是一款基于国产昇腾AI平台开发的中文原生文生图模型,具备卓越的中文语义理解和高质量图像生成能力。它通过复合语言编码模块优化中文长文本处理,并利用大量中文图文数据进行预训练,确保信息完整性和生成质量。该模型支持国产化算力环境,适配多种应用场景,包括文物数字化、个性化服装定制、智能家居设计、广告创意生成及在线教育等,为企业提供高效解决方案。

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具,能够利用多个文本提示生成连贯且高质量的视频内容,无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡,同时在MPVBench基准上表现出色,适用于电影、游戏、广告及新闻等多个领域。

理想同学

理想同学是一款基于AI技术打造的智能助手,集成了知识问答、视觉识别、绘画创作和播客等多种功能。它支持多领域的信息查询、语言翻译、文本生成及视觉分析,通过跨平台协作实现数据同步与连续对话。此外,用户可根据需求选择不同模型以优化推理能力,广泛适用于日常生活、学习和工作场景。

启元重症大模型

启元重症大模型是一款面向ICU环境的医疗人工智能系统,依托于腾讯的混元大模型架构,集成了庞大的医学知识库和先进的自然语言处理技术,能够快速生成病历、总结病情、提供诊疗建议等,大幅提升了重症医疗的服务质量和工作效率。其核心技术包括医学知识图谱构建、数据处理与分析、模型压缩优化以及临床逻辑推理能力,适用于多种应用场景如ICU监护、智能辅助诊疗、病历自动化生成等。

Poetry2Image

Poetry2Image是一个由哈尔滨工业大学提出的迭代校正框架,专门用于中文古诗词的图像生成。该工具通过自动化反馈和校正机制,提升了诗歌与图像的一致性,解决了文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。Poetry2Image具备搜索翻译、生成初始图像、提取关键元素、图像修正及迭代优化等功能,与多种图像生成模型结合使用时,其元素完整性和语义一致性表现优异,适用于古诗词

MuseGate

MuseGate是一款依托生成式AI技术的电商营销工具,专注于服饰行业。它通过虚拟模特生成、场景定制、尺寸调整等功能,助力企业优化商品展示效果,降低运营成本,提升品牌形象。其核心功能包括虚拟模特生成、一键换装、场景定制、节点营销等,广泛应用于时尚展示、电子商务、广告宣传等领域。

星火投标

星火投标是一款由科大讯飞推出的专业投标辅助工具,利用人工智能技术实现标书的快速生成、智能审查以及资源整合。其核心功能包括标书智能编写、标书智能审查、标书知识库构建及要素库管理,旨在提升标书的专业性和准确性,帮助企业提高投标成功率。此外,该工具还支持投标资料整理、投标策略制定及投标文件管理,适用于各类招投标场景。

EDTalk

EDTalk是一款基于音频驱动的唇部同步模型,支持嘴型、头部姿态及情感表情的独立操控。用户可通过上传图片、音频和参考视频生成具有唇形同步和情感表达的动态人脸视频,广泛应用于教育、影视后期、虚拟现实等领域。其高效解耦机制和轻量化设计使其易于操作且资源友好。