我是李浩宇(Haoyu Li),将于2026年9月入学南京大学攻读博士学位,师从准聘副教授王帅。硕士毕业于上海交通大学计算机科学与技术专业,师从俞凯教授。
研究方向聚焦于目标说话人提取(Target Speaker Extraction, TSE)、自动语音识别(Automatic Speech Recognition, ASR)与语音大语言模型(Speech LLMs),致力于构建能够在嘈杂、多人说话的真实场景中稳定运行的鲁棒语音交互系统。
研究兴趣
总体而言,我的研究聚焦于面向前端信号处理与语音理解的目标说话人提取(TSE)与多说话人自动语音识别(Multi-talker ASR):
- 语音分离:涵盖目标说话人提取(TSE)与盲源分离(Blind Source Separation, BSS)
- 说话人属性化自动语音识别(Speaker-Attributed ASR, SA-ASR)
- 面向资源受限边缘设备的关键词检测(Keyword Spotting, KWS)
研究经历
我的近期工作跨越学术实验室和工业研究:
-
文本引导语音分离与鲁棒关键词检测 (思必驰,苏州)
我构建基于文本线索的语音分离系统,在真实多人对话场景中将拒识率降至4.3%、误唤醒率压缩至基线20%;同时研发面向低信噪比环境的端到端关键词检测算法,结合鲁棒流式解码与 WFST 优化,相关成果形成2篇ICASSP 2025论文。 -
流匹配TTS的说话人自适应对齐 (阿里巴巴,北京)
我提出时序与层级双自适应方案,动态调整去噪阶段监督强度与网络层对齐目标,有效提升零样本语音克隆中的音色一致性,相关工作投稿至Interspeech 2026。 -
关键词引导的目标说话人提取新范式 (南京大学/合作研究)
我提出Detect-Attend-Extract三阶段框架,仅需部分文本线索即可实现优于语音注册基线的提取性能,相关工作投稿至IJCAI 2026。
发表论文(选集)
完整列表请见 发表论文。
* 表示同等贡献。
-
Text-aware Speech Separation for Multi-talker Keyword Spotting
Haoyu Li, Baochen Yang, Yu Xi, Linfeng Yu, Tian Tan, Hao Li, Kai Yu
Interspeech 2024.
paper link -
Detect, Attend and Extract: Keyword Guided Target Speaker Extraction
Haoyu Li*, Yu Xi*, Yidi Jiang, Shuai Wang, Kate Knill, Mark Gales, Haizhou Li, Kai Yu
arXiv:2602.07977. Submitted to IJCAI-ECAI 2026.
paper link -
Time-Layer Adaptive Alignment for Speaker Similarity in Flow-Matching Based Zero-Shot TTS
Haoyu Li*, Mingyang Han*, Yu Xi, Dongxiao Wang, Hankun Wang, Haoxiang Shi, Boyu Li, Jun Song, Bo Zheng, Shuai Wang, Kai Yu
arXiv:2511.09995. Submitted to Interspeech 2026.
paper link -
Streaming Keyword Spotting Boosted by Cross-layer Discrimination Consistency
Yu Xi*, Haoyu Li*, Xiaoyu Gu, Hao Li, Yidi Jiang, Kai Yu
ICASSP 2025.
paper link -
NTC-KWS: Noise-aware CTC for Robust Keyword Spotting
Yu Xi, Haoyu Li, Hao Li, Jiaqi Guo, Xu Li, Wen Ding, Kai Yu
ICASSP 2025.
paper link -
MFA-KWS: Effective Keyword Spotting with Multi-head Frame-asynchronous Decoding
Yu Xi, Haoyu Li, Xiaoyu Gu, Yidi Jiang, Kai Yu
TASLP.
paper link -
G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
Jing Peng*, Ziyi Chen*, Haoyu Li*, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai Wang
arXiv:2603.10468. Submitted to Interspeech 2026.
paper link
联系方式
我非常乐意就上述话题进行交流和合作,您可以通过以下方式联系我:
- 邮箱: haoyu.li.cs@sjtu.edu.cn
- GitHub: https://github.com/GnafiY
- Google Scholar: https://scholar.google.com/citations?user=ox4ykukAAAAJ&hl