研究博客 | OpenMOSS

Jun 2026

Thinking with Video：用视频生成做多模态推理

OpenMOSS Team

提出“用视频思考”范式：让视频生成模型把动态过程展开为可读取的视频帧，并在 VideoThinkBench 上评估视觉与文本推理能力。

Mar 15, 2026

OpenMOSS Team

提出“社区反馈强化学习”(RLCF)：从引用等科研社区反馈中训练 Scientific Judge 与 Scientific Thinker，让 AI 学会判断并构思高影响力研究想法。

Mar 2026

OpenMOSS Team

可扩展的语音生成基座模型，支持零样本音色克隆、时长与发音控制、流畅中英混说与长语音生成。

Feb 2026

OpenMOSS Team

开源视频-音频联合生成模型，可同步生成高质量画面与声音，覆盖唇形同步语音、环境音效和内容匹配的音乐。

Jun 20, 2025

OpenMOSS Team

MOSS-TTSD是一个口语对话语音生成模型，实现了中英双语的高表现力对话语音生成，支持零样本多说话人音色克隆，声音事件控制以及长语音生成。

Jan 26, 2025

OpenMOSS Team

SpeechGPT 2.0-preview 是我们在迈向情景智能推出的第一个拟人化实时交互系统。基于在百万级高质量语音数据上训练的端到端语音大模型。

Apr 19, 2024

Jiasheng Ye

训练数据配比对语言模型的表现的影响可以被定量预测，我们可以利用这一预测指导数据配比选择，比如在预训练中优化模型性能，或在继续预训练中避免灾难性遗忘。

Mar 02, 2024

詹俊

基于原始的GPT结构和多模态离散化表示，AnyGPT统一了文本、语音、图像、音乐四种模态，并实现任意模态组合的相互转换。

Feb 22, 2024

Shimin Li

在社会准则不断演化的环境中，与社会对齐良好的智能体将得以保留并演化出更适配环境的后代，而对齐不好的智能体则逐渐消亡并被淘汰。

Jan 24, 2024

Qinyuan Cheng

我们能否通过对齐的方式让基于语言模型的人工智能助手知道自己不知道什么，并使用语言表达出来，以此增强人工智能助手在实际应用中的真实性。

Dec 23, 2023

Zhengfu He

若字典学习可以提取Transformer中有意义的特征，我们能否据此逆向出Transformer内部的（几乎）所有回路？