天游ty8线路1线路2检测中心天游线路测速登录中心软件系统团队师生的研究成果“Two-stage Semi-supervised Speaker Recognition with Gated Label Learning”目前被“The 33rd International Joint Conference on Artificial Intelligence(IJCAI-2024)”正式接收。IJCAI是全球人工智能领域的旗舰会议,由中国计算机学会(CCF)A类推荐。论文研究由博士生孟稼祥、硕士生刘菁瀚在王兴梅老师和李博权老师的指导下完成,论文作者还包括香港理工大学Kong Aik Lee教授,是软件系统团队开展海内外合作研究的代表性成果。
论文的研究内容为说话人识别,是人工智能与模式识别领域的重要研究方向,在身份鉴别、访问控制等重要任务中具有广阔的应用前景。尽管当前说话人识别领域已取得一定研究进展,标注的话语数据匮乏仍是现有研究面临的关键难题。
在计算机视觉任务中,半监督学习通过向无标注数据分配伪标签解决了标注的图像数据匮乏的问题。然而,由于话语数据类别远超图像、伪标签的数量和质量难以平衡,导致最先进的半监督学习方法仍难以应用于说话人识别任务。因此,该论文提出了一种创新的双阶段半监督说话人识别方法,在第一阶段构建对比学习网络以获得话语数据的向量映射表示,在第二阶段构建基于聚类和门限标签学习的半监督学习网络,以分配和选择可靠的伪标签数据。
论文的实验结果显示,作者提出的方法有效平衡了伪标签数据的质量和数量,取得了卓越的说话人识别效果(等误率1.18%),识别结果接近了全监督学习(等误率0.96%)并显著优于当前最先进的基线方法。