发文时间:2026-03-19 撰稿人:

学术论文:

  1. 【1】Towards ultrasonic guided wave fine-grained damage detection on hierarchical multi-label classification network (2024), Mechanical Systems and Signal Processing, vol. 218, num.  111582.  (中科院1区,Top期刊,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  2. 【2】A diffusion model-based deep learning approach for denoising acoustic emission signals in concrete(2025), Measurement, vol. 251, num.  117143, 2024. (中科院2区,Top期刊,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  3. 【3】Concrete acoustic emission signal augmentation method based on generative adversarial networks (2024). Measurement, vol. 231, num.  114574, 2024. (中科院2区,Top期刊,唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  4. 【4】Damage Source Localization in Concrete Slabs Based on Acoustic Emission and Machine Learning(2025), IEEE Sensors Journal, vol. 25(7), num. 7, p. 11622-11635. (中科院3区,本人唯一通讯作者,指导的研 究生为第一作者,SCI/EI)
  5. 【5】  Automatic bolt tightness detection using acoustic emission and deep learning(2023). Structures,vol. 55, 2023, p. 1774-1882., 2023. (中科院2区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  6. 【6】Music Onset Detection Based on  Resonator Time-frequency Image(2008). IEEE Transactions On Audio, Speech And Language Processing, vol. 16, num. 8, 2008, p. 1685-1695 . (本人唯一第一作者,中科院1区,Top期刊,SCI/EI)
  7. 【7】Poly-SVC: Polyphonic-Aware Singing Voice Conversion with Harmonic Modeling, in Proceeding of International Conference of Acoustics, Speech and Signal Processing(ICASSP) 2026. (信号处理顶会,已录用,本人唯一通讯作者,指导的研究生为第一作者)
  8. 【8】Deep dubbing: end-to-end auto-audiobook system with text-to-timbre and context-aware instruct-tts,in Proceeding of International Conference of Acoustics, Speech and Signal Processing(ICASSP) 2026. (信号处理顶会,已录用,共同通讯作者,指导的研究生为第一作者)
  9. 【9】 Exploring the Impact of Back-End Network on Wav2vec 2.0 for Dialect Identification (2023), in Proceeding of INTERSPEECH 2023, pages 5356-5360.(语音顶会,本人唯一通讯作者,指导的研究生为第一作者)
  10. 【10】KAN-ResNet-Enhanced Radio Frequency Fingerprint Identification with Zero-Forcing Equalization (2025), Sensors, 25(7),2222. (中科院3区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  11. 【11】An improved YOLO model for manhole cover defect detection and risk assessment. Signal, Image and video processing, 10 (2026).(中科院4,第二作者,SCI/EI,指导的研究生为第一作者)
  12. 【12】Window-Dominant Signal Subspace Methods for Multiple Short-Term Speech Source Localization (2017), in: IEEE/ACM Transactions on Audio, Speech and Language Processing, 25:4(731 - 744). (第二作者中科院1区,Top期刊,SCI/EI)
  13. 【13】Phonotactic language recognition using dynamic pronunciation and language branch discriminative information (2015), in: Speech Communication, 75(50 - 61) (中科院2区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  14. 【14】Language recognition system using language branch discriminative information(2014), in Proceeding of International Conference of Acoustics, Speech and Signal Processing(ICASSP) 2014(5327-5331). (语音顶会,指导的研究生为第一作者)
  15. 【15】基于Ghost-SE-Res2Net的多模型融合语音唤醒词检测方法2024, 计算机工程,50(3): 52-59。(本人唯一通讯作者、科协高质量期刊T2类期刊,指导的研究生为第一作者 )
  16. 【16】多模型融合的VoxSRC22说话人日志系统2024计算机工程与应用,2024,60(10):164-172.。(本人唯一通讯作者、科协高质量期刊T2类期刊,指导的研究生为第一作者)
  17. 【17】低资源下的语音唤醒研究综述 2024, 计算机工程,2025,51(2):35-53.(本人唯一通讯作者、科协高质量期刊T2类期刊,指导的研究生为第一作者)
  18. 【18】深度学习在音乐生成中的研究与应用综述2026, 计算机工程与应用.(已录用,本人唯一通讯作者、科协高质量期刊T2类期刊,指导的研究生为第一作者)
  19. 【19】基于深度学习的跨语言语音合成综述2026, 计算机科学。(已录用,本人唯一通讯作者、科协高质量期刊T2类期刊,指导的研究生为第一作者)
  20. 【20】Synthetic speech spoofing Detection Based on Online Hard Example Mining,IEEE Access, 2023. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  21. 【21】Zhuo Deng,Ruohua Zhou*, Vocal92: Multimodal Audio Dataset with a Cappella Solo Singing and Speech(2023),IEEE Access, DOI: 10.1109/ACCESS.2023.3253207. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  22. 【22】ECE-TTS: A Zero-Shot Emotion Text-to-Speech Model with Simplified and Precise Control, in: Applied Sciences, 15(9),5108. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  23. 【23】 Amplitude and Phase Information Interaction for Speech Enhancement Method (2023), in: Applied Sciences, 13(14),8025. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  24. 【24】 Replay Speech Detection Based on Dual-Input Hierarchical Fusion Network (2023), in: Applied Sciences, 13(9),5350.( 中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  25. 【25】Multi-Scale Channel Adaptive Time-Delay Neural Network and Balanced Fine-Tuning for Arabic Dialect Identification(2023), in: Applied Sciences, 13(7),4233 (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  26. 【26】Violin Music Emotion Recognition with Fusion of CNN–BiGRU and Attention Mechanism (2024), information, vol 15(4), 224. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,ESCI/EI).
  27. 【27】Jingwen Yang, Ruohua Zhou, Whisper40: A Multi-Person Chinese Whisper Speaker Recognition Dataset Containing Same-Text Neutral Speech, information , vol 15(4), 184. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,ESCI/EI).
  28. 【28】Discriminatively learned network for i-vector based speaker recognition(2018), in: IET Electronics Letters, 54:22(1302-1304). (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,ESCI/EI)
  29. 【29】 Speaker-Phonetic I-Vector Modeling for Text-Dependent Speaker Verification with Random Digit Strings (2019), in: IEICE TRANSACTIONS on Information and Systems, .E102-D:2(346-354) . (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  30. 【30】Polyphonic Piano Transcription with a Note-Based Music Language Model(2018), in: Applied Sciences, 8(3),470. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  31. 31】 A Two-Stage Approach to Note-Level Transcription of a Specific Piano (2017), in: Applied Sciences, 7(9),901. (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  32. 【32】Robust speaker recognition using a library of cross-domain variation compensation transforms (2016), in: IET Electronics Letters, 52:4(321-323). (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  33. 【33】Cross-domain variation compensation for robust speaker verification (2015), in: IET Electronics Letters, 51:21(1706-1707). (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  34. 【34】 Feature recovery for noise-robust speaker verification (2015), in: IET Electronics Letters, 51:18(1459-1461). (中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  35. 【35】  Voice biometrics using linear Gaussian model(2014), in IET Biometrics ,3:1(9-15), 2014 ((中科院4区,本人唯一通讯作者,指导的研究生为第一作者,SCI/EI)
  36. 【36】A General Bayesian Model for Speaker Verification (2016),in Chinese Journal of Electronics, 25:6,(1045-1051). (本人唯一通讯作者、科协高质量期刊T1类期刊,指导的研究生为第一作者,SCI/EI
  37. 【37】 PLF Optimization for Target Language Detection (2017),in Chinese Journal of Electronics, 26:1(118-121). (本人唯一通讯作者、科协高质量期刊T1类期刊,指导的研究生为第一作者,SCI/EI)
  38. 【38】Speaker Recognition Using Sparse Probabilistic Linear Discriminant Analysis(2013),in IEICE TRANS. fundmentals, E96–A:10(1938-1945) . (中科院4区,指导的研究生为第一作者,SCI/EI)
  39. 【39】Automatic Piano Music Transcription Using Audio-Visual Features(2015),in Chinese Journal of Electronics, 24:3,(596-603). (科协高质量期刊T1类期刊,指导的研究生为第一作者,SCI/EI)
  40. 【40】Modeling prosodic features with probabilistic linear discriminant analysis for speaker verification(2014),in Shengxue Xuebao/Acta Acustica,40:1(28-33). (科协高质量期刊T1类期刊,指导的研究生为第一作者)
  41. 【41】Gaussian PLDA for Speaker Verification and Joint Estimation(2014) , in Acta Automatica Sinica, 40(6): 1068-1074. (本人唯一通讯作者、科协高质量期刊T1类期刊,指导的研究生为第一作者,SCI/EI)
  42. 【42】Enhanced Voice Activity Detection based on Automatic Segmentation and Event Classification (2014) , in Journal of Computational Information Systems,10:10(4169-4177). (本人唯一通讯作者、指导的研究生为第一作者,EI)
  43. 【43】Language recognition based on SVM 1 vs.1 classification(2013), in Qinghua Daxue Xuebao/Journal of Tsinghua University,53:6(808:812). (本人唯一通讯作者、指导的研究生为第一作者, EI)
  44. 【44】Fast and precise automatic music/speech segmentation(2013), in Qinghua Daxue Xuebao/Journal of Tsinghua University, 35:2(878-882). (本人唯一通讯作者、指导的研究生为第一作者, EI )
  45. 【45】应用于短时语音语种识别的时长扩展方法(2018), 清华大学学报(自然科学版) 58(3): 254-259。(本人唯一通讯作者、指导的研究生为第一作者, EI)
  46. 【46】应用于语种识别的加权音素对数似然比特征(2017), 清华大学学报(自然科学版) 57(10): 1038-1041。(本人唯一通讯作者、指导的研究生为第一作者, EI)
  47. 【47】一个快速自动音乐记谱方法, 声学学报, 第35卷, 第2期, 2010, p.282-287(本人唯一通讯作者、科协高质量期刊T1类期刊,指导的研究生为第一作者,EI)
  48. 【48】A Computationally Efficient Method for Polyphonic Pitch Estimation(2009), EURASIP Journal on Advances in Signal Processing, Volume 2009 , Article ID 729494, 11 pages. (本人唯一第一作者,中科院4区,SCI/EI)
  49. 【49】Chapter 12: Music Onset Detection, In Machine Audition: Principles, Algorithms and Systems. Book Published by IGI Global. ISBN-13, 978-1615209194, July, 2010. (第一作者,论著章节)
  50. 【50】Semi-supervised local Fisher discriminant analysis for speaker verification(2014), in Advances in Information Sciences and Service Sciences, 6(6): 1-11. (本人唯一通讯作者、科协高质量期刊T1类期刊,指导的研究生为第一作者,EI)
  51. 【51】许云飞, 周若华*, 颜永红,基于PLDA的多信道多语音说话人确认研究(2014) , 网络新媒体技术, 3(1): 13-19. (本人唯一通讯作者指导的研究生为第一作者)
  52. 【52】王宪亮, 袁庆升,包秀国,张健, 周若华*,颜永红,基于SVM一对多得分规整的语种识别方法(2015),网络新媒体技术,2015:6(27-30).( 本人唯一通讯作者指导的研究生为第一作者)
  53. 【53】王宪亮,万玉龙,杨琳,周若华*,颜永红. 基于语支鉴别性的音素相关语种识别方法(2014), 网络新媒体技术. 2014:4(40-43). (本人唯一通讯作者指导的研究生为第一作者)
  54. 【54】基于非负矩阵分解的钢琴多音符估计(2014) , 网络新媒体技术, 3(5): 23-27. (指导的研究生为第一作者)
  55. 【55】Language recognition system using language branch discriminative information(2014), in Proceeding of Acoustics, Speech and Signal Processing. ICASSP 2014(5327-5331). (本人唯一通讯作者指导的研究生为第一作者,EI )
  56. 【56】Characterization Vector Extraction Using Neural Network for Speaker Recognition, in Proceedings of International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC 2016 ), 1(355-358). (指导的研究生为第一作者EI )
  57. 【57】Text-dependent speaker verification using word-based scoring(2018), 11th International Symposium on Chinese Spoken Language Processing, ISCSLP 2018 - Proceedings, Pages: 314 - 318(指导的研究生为第一作者,EI)
  58. 【58】Robust multiple speech source localization based on phase difference regression, in Proceedings of International Symposium on Chinese Spoken Language Processing (2017). ( EI )
  59. 【59】Language-pair scoring method based on SVM for language recognition(2013),in Proceeding of Applied Mechanics and Materials, 333(737-741). (指导的研究生为第一作者,EI )
  60. 【60】Automatic Transcription of Piano Music Using Audio-Vision Fusion(2013), in Proceeding of Applied Mechanics and Materials, the 2nd International Conference on Measurement, Instrumentation and Automation, 333 :335 ( 742-748). (指导的研究生为第一作者,EI )
  61. 【61】Multipitch Onset Detection Via Temporal Segmentation And Segmental Analysis(2014) , in Proceeding of International Congress on Sound and Vibration, 2(1637:1644). (指导的研究生为第一作者,EI)
  62. 【62】Direction-of-Arrival Estimation of Multiple Speakers Using a Planar Array (2014), in Proceeding of INTERSPEECH 2014, pages 2223-2227 (语音顶会,EI)
  63. 【63】Vowel based neural networks for speaker verification (2014), in Proceeding of 2014 International Academic Conference on The Information Science and Communication Engineering (ISCE2014), pages 89-97. (指导的研究生为第一作者,ISTP)
  64. 【64】A new feature for speech\music discrimination, in Proceeding of 2014 International Academic Conference on The Information Science and Communication Engineering (ISCE2014), Hunan, China, 2014, pages 133-137. (指导的研究生为第一作者,ISTP)
  65. 【65】A Real-Time Polyphonic Music Transcription System, Proceedings of the Fourth Music Information Retrieval Evaluation eXchange (MIREX), p.1-4, Philadelphia, USA, September 14-18, 2008.( 唯一第一作者, EI )
  66. 【66】A New Time-frequency Representations for Music Signal Analysis, International Conference on Information Sciences, Signal Processing and its Applications, February, 2007. ( 唯一第一作者, EI)
  67. 【67】Polyphonic Music Analysis by Signal Processing and Support Vector Machines, 20-22 September 2005, Proceedings of the 8th Conference on Digital Audio Effects, 2005. ( 唯一第一作者, EI)
  68. 【68】A multi-timbre chord/harmony analyzer based on signal processing and neural networks, 20-22 September 2005, 2004 IEEE 6th Workshop on Multimedia Signal Processing, p 219-222, 2004.(EI)
  69. 【69】Short-term Specific Audio Detection(2015), in Proceedings of International Symposium of Computer Application an Information Technology. ( 指导的研究生为第一作者 )
  70. 【70】Music Onset Detection Combining Energy-based and Pitch-Based Approaches, First Place Award, Third Music Information Retrieval Evaluation eXchange (MIREX), Vienna, Austria, 26 September 2007. ( 唯一第一作者 )
  71. 【71】基于SVM一对一分类的语种识别方法(2013) , 全国人机语音通讯学术会议, 2013: 808-812. (指导的研究生为第一作者)(指导的研究生为第一作者 )
  72. 【72】Locality preserving discriminant projection for total-variability-based language recognition(2014),Advances in Intelligent Systems and Computing,215: 451-459(指导的研究生为第一作者 )
  73. 【73】Multi-pitch onset detection via temporal segmentation and segmental analysis(2014),21st International Congress on Sound and Vibration 2014, ICSV 2014,2: 1637-1644.(指导的研究生为第一作者 )
  74. 【74】Hybrid natural and structured audio coding for 3D scenes (2002), Proceedings - 2002 IEEE International Conference on Multimedia and Expo, ICME 2002, 1:505-508.(指导的研究生为第一作者 )
  75. 【75】针对目标语种检出的对数域音素后验概率特征优化(2015), 2015中国计算机网络安全年会论文集 ,pp. 259-263.(指导的研究生为第一作者 )
  76. 【76】基于谱包络非负矩阵分解的钢琴多音符估计算法(2015). 中国科学院声学研究所纪念建所50周年暨第五届学术交流会论文集, pp. 283-287.(指导的研究生为第一作者 )
  77. 【77】基于语支鉴别性的音素相关语种识别方法(2015). 中国科学院声学研究所纪念建所50周年暨第五届学术交流会论文集 , pp. 288-292.(指导的研究生为第一作者 )
  78. 【78】音子配列学语种识别系统中特征选择方法的研究. 中国科学院声学研究所第四届青年学术交流会论文集(2012),  pp. 282-285.(指导的研究生为第一作者 )
  79. 【79】Open-Source Full-Duplex Conversational Datasets for Natural and Interactive Speech Synthesis (2025),https://arxiv.org/abs/2509.04093. (本人唯一通讯作者、指导的研究生为第一作者 )
  80. 【80】Speaker Diarization Based on Multi-channel Microphone Array in Small-scale Meeting(2025), https://arxiv.org/abs/2210.14644. (本人唯一通讯作者、指导的研究生为第一作者 )
  81. 【81】Wake Word Detection Based on Res2Net (2025), https://arxiv.org/abs/2209.15296. (本人唯一通讯作者、指导的研究生为第一作者 )
  82. 【82】 The BUCEA Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2022, https://arxiv.org/abs/2209.09635  (本人唯一通讯作者、指导的研究生为第一作者 )

 


出版书籍:
[1] Ruohua Zhou* and Joshua D. Reiss, Chapter 12: Music Onset Detection, In Machine Audition: Principles, Algorithms and Systems. Book Published by IGI Global. ISBN-13, 978-1615209194, July, 2010.

 

授权专利:

【1】一种超声导波损伤检测方法、装置、电子设备及存储介质,ZL2024102643484,第一发明人

【2】一种基于生成对抗网络的声发射信号增强方法及装置,ZL2024102998622,第一发明人

【3】一种剪枝可调的音频分离模型优化方法和装置,ZL2024103188980,第一发明人

【4】一种训练关键词识别模型的方法、识别关键词的方法及装置,ZL2024107426583,第一发明人

【5】一种音频分离方法、装置、电子设备及存储介置,ZL2024108033971,第一发明人

【6】一种对语音内容进行增强的对抗性攻击方法、装置和系统,ZL2024102748364,第一发明人

【7】一种耳语说话人识别模型训练方法和装置,ZL202410250740,第一发明人

【8】基于可控文本的语音合成方法、装置和系统,ZL202410250738,第一发明人

【9】一种基于CBA模型的音乐情感识别方法和装置,ZL202410243382,第一发明人

【10】一种基于音源分离的自动记谱方法和装置,ZL2023118581304,第一发明人

【11】一种语音唤醒词的模型训练与识别方法,ZL202310326171.5,第一发明人

【12】一种基于声源位置的语音分割聚类方法和装置,ZL202310326471.0,第一发明人

【13】方言识别系统及其训练方法,ZL202310326168.0,第一发明人

【14】一种基于条件生成式对抗网络的语种识别分类方法,ZL2018109167573,第一发明人

【16】一种随机数字口令相关的说话人识别方法及装置,ZL201810039718X,第一发明人

【17】一种基于降噪自动编码器的语种识别分类方法及装置,ZL2018109167569,第一发明人

【18】一种应用于语种识别的短时语音时长扩展方法,ZL201610236672.1,第一发明人

【19】一种敲击弦乐器的音乐多音符估计方法及系统,ZL2014103256096,第一发明人

【20】一种语种识别模型的训练方法及语种识别方法,ZL201410336650.3,第一发明人

【21】一种说话人识别方法,ZL2014103341243,第一发明人

【22】一种基于音视频信息的自动音乐记谱方法及系统,ZL201210122443.9,第一发明人

【23】一种基于共有鉴别性子空间映射的语种识别方法及装置,ZL201210587263.8,第一发明人

【24】一种用于语种识别的语种模型的训练方法及系统,ZL201210560716.8,第一发明人

【25】一种说话人识别方法,ZL201210555152.9,第一发明人

 

访问量: 开通时间 :2020-05-08 最后更新时间 :2026-03-23