AI项目与工具

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

Talkie

Talkie是一款基于人工智能技术打造的虚拟伴侣应用,主打高度定制化虚拟角色和沉浸式互动体验。它支持用户通过文本、语音及图像与AI角色交流,并提供角色创建、卡牌收集、智能推荐等功能。自推出以来,Talkie迅速获得了全球用户的青睐,在个性化聊天、情感陪伴及沉浸式叙事方面展现出强大潜力。

宣小二

宣小二是一款基于人工智能技术的媒体发稿平台,主要功能涵盖新闻发稿、自媒体发稿、短视频矩阵发布等。它还提供舆情监控、AI写作服务、数据分析系统及自媒体账号管理工具,帮助企业优化营销策略,提升品牌影响力,同时支持多平台协同推广。

Banger

Banger是一款基于AI技术的音乐创作工具,支持用户对现有歌曲进行翻唱创作。它提供无缝人声替换、丰富语音库、个性化设置等功能,适用于个人创作、音乐教学、社交媒体分享等多种场景。用户可选择内置模板或上传原声,生成高质量翻唱作品并进行分享。Banger简化了音乐制作流程,降低了创作门槛,适合各类音乐爱好者和创作者使用。

Miraa

Miraa 是一款由 Myoland 开发的 AI 驱动语言学习工具,支持多种语言的音频和视频内容转录与实时翻译,帮助用户提升语言理解与表达能力。其“回声法练习”功能通过听、理解、模仿和比较提升口语,同时提供 AI 解释、智能推荐、学习进度跟踪等功能。适用于日常学习、旅行准备、专业提升及教学辅助等场景,适合各类语言学习者使用。

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。

summarize.tech

Summarize.tech是一款利用AI技术生成长视频文字摘要的在线工具,可自动提取视频中的关键信息并提供定制化的摘要长度和时间戳标记。它支持多种语言和跨平台链接,适用于学习、研究、职场及娱乐等多个场景,帮助用户高效获取所需信息。

Agent

Agent-S 是一款基于图形用户界面(GUI)的人机交互自动化框架,通过经验增强的分层规划和代理-计算机接口(ACI),实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型(MLLMs)进行推理和控制,并具备持续学习和跨操作系统通用性的特点,适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。

Cobra

Cobra是由清华大学、香港中文大学和腾讯ARC实验室联合开发的漫画线稿上色框架,采用因果稀疏注意力机制和局部可复用位置编码技术,实现高精度、高效率的自动上色。支持颜色提示调整,提升灵活性与个性化。适用于漫画、动画、插画等多种场景,具有高效的推理能力和良好的扩展性。项目已开源,包含技术论文与模型资源。

LEGALNOW

LEGALNOW是一款基于AI技术的法律文件起草与审查平台,提供定制模板、一键审查、实时AI咨询、条款解析及数据加密等功能,旨在提升合同处理效率与安全性。其全球化律师网络覆盖60多个国家,支持多语言和多法域业务,适用于初创企业、中小企业、个人用户以及法律专业人士。