English | 中文

我是李浩宇(Haoyu Li),将于2026年9月入学南京大学攻读博士学位,师从准聘副教授王帅。硕士毕业于上海交通大学计算机科学与技术专业,师从俞凯教授

研究方向聚焦于目标说话人提取(Target Speaker Extraction, TSE)自动语音识别(Automatic Speech Recognition, ASR)语音大语言模型(Speech LLMs),致力于构建能够在嘈杂、多人说话的真实场景中稳定运行的鲁棒语音交互系统。


研究兴趣

总体而言,我的研究聚焦于面向前端信号处理与语音理解的目标说话人提取(TSE)多说话人自动语音识别(Multi-talker ASR)

  • 语音分离:涵盖目标说话人提取(TSE)与盲源分离(Blind Source Separation, BSS)
  • 说话人属性化自动语音识别(Speaker-Attributed ASR, SA-ASR)
  • 面向资源受限边缘设备的关键词检测(Keyword Spotting, KWS)

研究经历

我的近期工作跨越学术实验室和工业研究:

  • 文本引导语音分离与鲁棒关键词检测 (思必驰,苏州)
    我构建基于文本线索的语音分离系统,在真实多人对话场景中将拒识率降至4.3%、误唤醒率压缩至基线20%;同时研发面向低信噪比环境的端到端关键词检测算法,结合鲁棒流式解码与 WFST 优化,相关成果形成2篇ICASSP 2025论文。

  • 流匹配TTS的说话人自适应对齐 (阿里巴巴,北京)
    我提出时序与层级双自适应方案,动态调整去噪阶段监督强度与网络层对齐目标,有效提升零样本语音克隆中的音色一致性,相关工作投稿至Interspeech 2026。

  • 关键词引导的目标说话人提取新范式 (南京大学/合作研究)
    我提出Detect-Attend-Extract三阶段框架,仅需部分文本线索即可实现优于语音注册基线的提取性能,相关工作投稿至IJCAI 2026。


发表论文(选集)

完整列表请见 发表论文

* 表示同等贡献。

  • Text-aware Speech Separation for Multi-talker Keyword Spotting
    Haoyu Li, Baochen Yang, Yu Xi, Linfeng Yu, Tian Tan, Hao Li, Kai Yu
    Interspeech 2024.
    paper link

  • Detect, Attend and Extract: Keyword Guided Target Speaker Extraction
    Haoyu Li*, Yu Xi*, Yidi Jiang, Shuai Wang, Kate Knill, Mark Gales, Haizhou Li, Kai Yu
    arXiv:2602.07977. Submitted to IJCAI-ECAI 2026.
    paper link

  • Time-Layer Adaptive Alignment for Speaker Similarity in Flow-Matching Based Zero-Shot TTS
    Haoyu Li*, Mingyang Han*, Yu Xi, Dongxiao Wang, Hankun Wang, Haoxiang Shi, Boyu Li, Jun Song, Bo Zheng, Shuai Wang, Kai Yu
    arXiv:2511.09995. Submitted to Interspeech 2026.
    paper link

  • Streaming Keyword Spotting Boosted by Cross-layer Discrimination Consistency
    Yu Xi*, Haoyu Li*, Xiaoyu Gu, Hao Li, Yidi Jiang, Kai Yu
    ICASSP 2025.
    paper link

  • NTC-KWS: Noise-aware CTC for Robust Keyword Spotting
    Yu Xi, Haoyu Li, Hao Li, Jiaqi Guo, Xu Li, Wen Ding, Kai Yu
    ICASSP 2025.
    paper link

  • MFA-KWS: Effective Keyword Spotting with Multi-head Frame-asynchronous Decoding
    Yu Xi, Haoyu Li, Xiaoyu Gu, Yidi Jiang, Kai Yu
    TASLP.
    paper link

  • G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
    Jing Peng*, Ziyi Chen*, Haoyu Li*, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai Wang
    arXiv:2603.10468. Submitted to Interspeech 2026.
    paper link


联系方式

我非常乐意就上述话题进行交流和合作,您可以通过以下方式联系我: