{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,9]],"date-time":"2026-01-09T13:59:16Z","timestamp":1767967156524,"version":"3.49.0"},"reference-count":45,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2017,11,1]],"date-time":"2017-11-01T00:00:00Z","timestamp":1509494400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"}],"funder":[{"DOI":"10.13039\/501100004410","name":"The Scientific and Technological Research Council of Turkey","doi-asserted-by":"publisher","award":["2219"],"award-info":[{"award-number":["2219"]}],"id":[{"id":"10.13039\/501100004410","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Computer Speech &amp; Language"],"published-print":{"date-parts":[[2017,11]]},"DOI":"10.1016\/j.csl.2017.01.013","type":"journal-article","created":{"date-parts":[[2017,2,27]],"date-time":"2017-02-27T22:00:12Z","timestamp":1488232812000},"page":"401-418","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":32,"special_numbering":"C","title":["Multi-microphone speech recognition integrating beamforming, robust feature extraction, and advanced DNN\/RNN backend"],"prefix":"10.1016","volume":"46","author":[{"given":"Takaaki","family":"Hori","sequence":"first","affiliation":[]},{"given":"Zhuo","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Hakan","family":"Erdogan","sequence":"additional","affiliation":[]},{"given":"John R.","family":"Hershey","sequence":"additional","affiliation":[]},{"given":"Jonathan","family":"Le Roux","sequence":"additional","affiliation":[]},{"given":"Vikramjit","family":"Mitra","sequence":"additional","affiliation":[]},{"given":"Shinji","family":"Watanabe","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.csl.2017.01.013_bib0001","doi-asserted-by":"crossref","first-page":"2011","DOI":"10.1109\/TASL.2007.902460","article-title":"Acoustic beamforming for speaker diarization of meetings","volume":"15","author":"Anguera","year":"2007","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.csl.2017.01.013_bib0002","series-title":"Proceedings of Automatic Speech Recognition and Understanding (ASRU)","article-title":"The third \u2018CHiME\u2019 speech separation and recognition challenge: dataset, task and baselines","author":"Barker","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_bib0003","doi-asserted-by":"crossref","first-page":"621","DOI":"10.1016\/j.csl.2012.10.004","article-title":"The PASCAL CHiME speech separation and recognition challenge","volume":"27","author":"Barker","year":"2013","journal-title":"Comput. Speech Lang."},{"key":"10.1016\/j.csl.2017.01.013_bib0004","series-title":"Microphone Array Signal Processing","author":"Benesty","year":"2008"},{"key":"10.1016\/j.csl.2017.01.013_bib0005","doi-asserted-by":"crossref","first-page":"157","DOI":"10.1109\/72.279181","article-title":"Learning long-term dependencies with gradient descent is difficult","volume":"5","author":"Bengio","year":"1994","journal-title":"IEEE Trans. Neural Netw."},{"key":"10.1016\/j.csl.2017.01.013_bib0006","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"375","article-title":"A robust method for speech signal time-delay estimation in reverberant rooms","author":"Brandstein","year":"1997"},{"key":"10.1016\/j.csl.2017.01.013_bib0007","series-title":"Proceedings of Association for Computational Linguistics (ACL)","first-page":"310","article-title":"An empirical study of smoothing techniques for language modeling","author":"Chen","year":"1996"},{"key":"10.1016\/j.csl.2017.01.013_bib0008","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1186\/s13634-015-0245-7","article-title":"Strategies for distant speech recognitionin reverberant environments","volume":"2015","author":"Delcroix","year":"2015","journal-title":"EURASIP J. Adv. Signal Process."},{"key":"10.1016\/j.csl.2017.01.013_bib0009","doi-asserted-by":"crossref","first-page":"2670","DOI":"10.1121\/1.409836","article-title":"Effect of reducing slow temporal modulations on speech reception","volume":"95","author":"Drullman","year":"1994","journal-title":"J. Acoust. Soc. Am."},{"key":"10.1016\/j.csl.2017.01.013_bib0010","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","article-title":"Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks","author":"Erdogan","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_bib0011","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","article-title":"Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks","author":"Erdogan","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_bib0012","series-title":"Proceedings of NIST Speech Transcription Workshop","article-title":"Posterior probability decoding, confidence estimation and system combination","author":"Evermann","year":"2000"},{"key":"10.1016\/j.csl.2017.01.013_bib0013","doi-asserted-by":"crossref","first-page":"75","DOI":"10.1006\/csla.1998.0043","article-title":"Maximum likelihood linear transformations for HMM-based speech recognition","volume":"12","author":"Gales","year":"1998","journal-title":"Comput. Speech Lang."},{"key":"10.1016\/j.csl.2017.01.013_bib0014","doi-asserted-by":"crossref","first-page":"1628","DOI":"10.1121\/1.1396325","article-title":"On the upper cutoff frequency of the auditory critical-band envelope detectors in the context of speech perception","volume":"110","author":"Ghitza","year":"2001","journal-title":"J. Acoust. Soc. Am."},{"key":"10.1016\/j.csl.2017.01.013_bib0015","series-title":"Proceedings of IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP)","article-title":"Neural network based spectral mask estimation for acoustic beamforming","author":"Heymann","year":"2016"},{"key":"10.1016\/j.csl.2017.01.013_bib0016","series-title":"Proceedings of IEEE Automatic Speech Recognition and Understanding (ASRU)","article-title":"The MERL\/SRI system for the 3rd chime challenge using beamforming, robust feature extraction, and advanced speech recognition","author":"Hori","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_bib0017","series-title":"Proceedings of Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","first-page":"1","article-title":"The reverb challenge: a common evaluation framework for dereverberation and recognition of reverberant speech","author":"Kinoshita","year":"2013"},{"key":"10.1016\/j.csl.2017.01.013_bib0018","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"181","article-title":"Improved backing-off for M-gram language modeling","author":"Kneser","year":"1995"},{"key":"10.1016\/j.csl.2017.01.013_bib0019","series-title":"Proceedings of Interspeech","first-page":"605","article-title":"Empirical evaluation and combination of advanced language modeling techniques","author":"Mikolov","year":"2011"},{"key":"10.1016\/j.csl.2017.01.013_bib0020","series-title":"Proceedings of Interspeech","first-page":"1045","article-title":"Recurrent neural network based language model","author":"Mikolov","year":"2010"},{"key":"10.1016\/j.csl.2017.01.013_bib0021","series-title":"Proceedings of Automatic Speech Recognition and Understanding (ASRU) Demo","first-page":"196","article-title":"RNNLM \u2013 recurrent neural network language modeling toolkit","author":"Mikolov","year":"2011"},{"key":"10.1016\/j.csl.2017.01.013_bib0022","series-title":"Proceedings of 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)","first-page":"317","article-title":"Time\u2013frequency convolutional networks for robust speech recognition","author":"Mitra","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_bib0023","series-title":"Proceedings of Interspeech","first-page":"886","article-title":"Damped oscillator cepstral coefficients for robust speech recognition","author":"Mitra","year":"2013"},{"key":"10.1016\/j.csl.2017.01.013_bib0024","series-title":"Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"4117","article-title":"Normalized amplitude modulation features for large vocabulary noise-robust speech recognition","author":"Mitra","year":"2012"},{"key":"10.1016\/j.csl.2017.01.013_bib0025","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","article-title":"Medium duration modulation cepstral feature for robust speech recognition","author":"Mitra","year":"2014"},{"key":"10.1016\/j.csl.2017.01.013_bib0026","series-title":"Proceedings of 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)","first-page":"525","article-title":"Improving robustness against reverberation for automatic speech recognition","author":"Mitra","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_sbref0027","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"7092","article-title":"Ideal ratio mask estimation using deep neural networks for robust speech recognition","author":"Narayanan","year":"2013"},{"key":"10.1016\/j.csl.2017.01.013_bib0028","doi-asserted-by":"crossref","first-page":"826","DOI":"10.1109\/TASLP.2014.2305833","article-title":"Investigation of speech separation as a front-end for noise robust speech recognition","volume":"22","author":"Narayanan","year":"2014","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.csl.2017.01.013_bib0029","doi-asserted-by":"crossref","first-page":"11.","DOI":"10.1186\/2190-8567-1-11","article-title":"Spontaneous voltage oscillations and response dynamics of a Hodgkin\u2013 Huxley type model of sensory hair cells","volume":"1","author":"Neiman","year":"2011","journal-title":"J. Math. Neurosci."},{"key":"10.1016\/j.csl.2017.01.013_bib0030","doi-asserted-by":"crossref","first-page":"196","DOI":"10.1109\/89.905994","article-title":"Time\u2013frequency distributions for automatic speech recognition","volume":"9","author":"Potamianos","year":"2001","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"10.1016\/j.csl.2017.01.013_bib0031","series-title":"Proceedings of ASRU","article-title":"The kaldi speech recognition toolkit","author":"Povey","year":"2011"},{"key":"10.1016\/j.csl.2017.01.013_bib0032","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"7398","article-title":"An investigation of deep neural networks for noise robust speech recognition","author":"Seltzer","year":"2013"},{"key":"10.1016\/j.csl.2017.01.013_bib0033","doi-asserted-by":"crossref","first-page":"260","DOI":"10.1109\/TASL.2009.2025790","article-title":"On optimal frequency-domain multichannel linear filtering for noise reduction","volume":"18","author":"Souden","year":"2010","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.csl.2017.01.013_bib0034","unstructured":"Stolcke, A., 2000. Entropy-based pruning of backoff language models. arXiv preprint cs.CL\/0006025."},{"key":"10.1016\/j.csl.2017.01.013_bib0035","series-title":"Proceedings of Interspeech","article-title":"LSTM neural networks for language modeling","author":"Sundermeyer","year":"2012"},{"key":"10.1016\/j.csl.2017.01.013_bib0036","doi-asserted-by":"crossref","first-page":"599","DOI":"10.1109\/TASSP.1980.1163453","article-title":"Some observations on oral air flow during phonation","volume":"28","author":"Teager","year":"1980","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"key":"10.1016\/j.csl.2017.01.013_bib0037","series-title":"Proceedings of Workshop on Machine Learning Systems (LearningSys) in the Twenty-Ninth Annual Conference on Neural Information Processing Systems (NIPS)","article-title":"Chainer: a next-generation open source framework for deep learning","author":"Tokui","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_bib0038","series-title":"Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"126","article-title":"The second CHiME speech separation and recognition challenge: datasets, tasks and baselines","author":"Vincent","year":"2013"},{"key":"10.1016\/j.csl.2017.01.013_bib0039","doi-asserted-by":"crossref","first-page":"1849","DOI":"10.1109\/TASLP.2014.2352935","article-title":"On training targets for supervised speech separation","volume":"22","author":"Wang","year":"2014","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.csl.2017.01.013_bib0040","doi-asserted-by":"crossref","first-page":"1529","DOI":"10.1109\/TASL.2007.898454","article-title":"Blind acoustic beamforming based on generalized eigenvalue decomposition","volume":"15","author":"Warsitz","year":"2007","journal-title":"IEEE Trans. Audio Speech Lang. Processs."},{"key":"10.1016\/j.csl.2017.01.013_bib0041","series-title":"Proceedings of International Conference on Latent Variable Analysis and Signal Separation (LVA\/ICA)","article-title":"Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR","author":"Weninger","year":"2015"},{"key":"10.1016\/j.csl.2017.01.013_bib0042","series-title":"Proceedings of GlobalSIP Symposium on Machine Learning Applications in Speech Processing","article-title":"Discriminatively trained recurrent neural networks for single-channel speech separation","author":"Weninger","year":"2014"},{"key":"10.1016\/j.csl.2017.01.013_bib0043","series-title":"Proceedings of GlobalSIP Machine Learning Applications in Speech Processing Symposium","article-title":"Discriminatively trained recurrent neural networks for single-channel speech separation","author":"Weninger","year":"2014"},{"key":"10.1016\/j.csl.2017.01.013_bib0044","doi-asserted-by":"crossref","first-page":"802","DOI":"10.1016\/j.csl.2011.03.001","article-title":"Minimum Bayes risk decoding and system combination based on a recursion for edit distance","volume":"25","author":"Xu","year":"2011","journal-title":"Comput. Speech Lang."},{"key":"10.1016\/j.csl.2017.01.013_bib0045","series-title":"Proceedings of 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)","first-page":"436","article-title":"The NTT chime-3 system: Advances in speech enhancement and recognition for mobile multi-microphone devices","author":"Yoshioka","year":"2015"}],"container-title":["Computer Speech &amp; Language"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0885230816300791?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0885230816300791?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2018,9,4]],"date-time":"2018-09-04T00:59:08Z","timestamp":1536022748000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0885230816300791"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,11]]},"references-count":45,"alternative-id":["S0885230816300791"],"URL":"https:\/\/doi.org\/10.1016\/j.csl.2017.01.013","relation":{},"ISSN":["0885-2308"],"issn-type":[{"value":"0885-2308","type":"print"}],"subject":[],"published":{"date-parts":[[2017,11]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Multi-microphone speech recognition integrating beamforming, robust feature extraction, and advanced DNN\/RNN backend","name":"articletitle","label":"Article Title"},{"value":"Computer Speech & Language","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.csl.2017.01.013","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2017 Elsevier Ltd. All rights reserved.","name":"copyright","label":"Copyright"}]}}