{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,21]],"date-time":"2025-10-21T15:23:12Z","timestamp":1761060192821},"reference-count":35,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2016,12,1]],"date-time":"2016-12-01T00:00:00Z","timestamp":1480550400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"}],"funder":[{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"publisher","award":["61271319"],"award-info":[{"award-number":["61271319"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Sciences"],"published-print":{"date-parts":[[2016,12]]},"DOI":"10.1016\/j.ins.2016.09.015","type":"journal-article","created":{"date-parts":[[2016,9,9]],"date-time":"2016-09-09T06:39:01Z","timestamp":1473403141000},"page":"219-232","update-policy":"http:\/\/dx.doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":14,"special_numbering":"C","title":["Visual speaker identification and authentication by joint spatiotemporal sparse coding and hierarchical pooling"],"prefix":"10.1016","volume":"373","author":[{"given":"Jun-Yao","family":"Lai","sequence":"first","affiliation":[]},{"given":"Shi-Lin","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Alan Wee-Chung","family":"Liew","sequence":"additional","affiliation":[]},{"given":"Xing-Jian","family":"Shi","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"issue":"11","key":"10.1016\/j.ins.2016.09.015_bib0001","doi-asserted-by":"crossref","first-page":"4311","DOI":"10.1109\/TSP.2006.881199","article-title":"K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation","volume":"54","author":"Aharon","year":"2006","journal-title":"IEEE Trans. Signal Process."},{"key":"10.1016\/j.ins.2016.09.015_bib0002","doi-asserted-by":"crossref","first-page":"74","DOI":"10.1016\/j.ins.2016.02.055","article-title":"Sparse representation matching for person re-identification","volume":"355","author":"An","year":"2016","journal-title":"Inf. Sci."},{"key":"10.1016\/j.ins.2016.09.015_bib0003","series-title":"Proc. 2013 IEEE Conference on Computer Vision and Pattern Recognition IEEE","first-page":"684","article-title":"Manifold kernel partial least squares for lipreading and speaker identification","author":"Bakry","year":"2013"},{"key":"10.1016\/j.ins.2016.09.015_bib0004","series-title":"Proc. ACM Workshop on Computational Learning Theory","first-page":"144","article-title":"A training algorithm for optimal margin classifiers","author":"Boser","year":"1992"},{"key":"10.1016\/j.ins.2016.09.015_bib0005","series-title":"Proc. 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)","first-page":"1","article-title":"Automatic speechreading with application to speaker verification","author":"Broun","year":"2002"},{"issue":"10","key":"10.1016\/j.ins.2016.09.015_bib0006","doi-asserted-by":"crossref","first-page":"2879","DOI":"10.1109\/TIP.2006.877528","article-title":"Discriminative analysis of lip motion features for speaker identification and speech-reading","volume":"15","author":"Cetingul","year":"2006","journal-title":"IEEE Trans. Image Process."},{"issue":"2","key":"10.1016\/j.ins.2016.09.015_bib0007","doi-asserted-by":"crossref","first-page":"602","DOI":"10.1109\/TIFS.2011.2175920","article-title":"Local ordinal contrast pattern histograms for spatiotemporal, lip-based speaker authentication","volume":"7","author":"Chan","year":"2012","journal-title":"IEEE Trans. Inf. Forensics. Secur."},{"key":"10.1016\/j.ins.2016.09.015_bib0008","series-title":"Proc. 12th International Conference on Information Fusion","first-page":"2255","article-title":"Biometric liveness detection based on cross modal fusion","author":"Chetty","year":"2009"},{"issue":"1","key":"10.1016\/j.ins.2016.09.015_bib0009","doi-asserted-by":"crossref","first-page":"105","DOI":"10.1007\/s10044-008-0144-8","article-title":"The lip as a biometric","volume":"13","author":"Chora\u015b","year":"2010","journal-title":"Pattern Anal. Appl."},{"issue":"2","key":"10.1016\/j.ins.2016.09.015_bib0010","doi-asserted-by":"crossref","first-page":"64","DOI":"10.1109\/2.820041","article-title":"BiolD: a multimodal biometric identification system","volume":"33","author":"Frischholz","year":"2000","journal-title":"Computer"},{"key":"10.1016\/j.ins.2016.09.015_bib0011","doi-asserted-by":"crossref","first-page":"77","DOI":"10.1016\/j.ins.2015.03.010","article-title":"Dictionary evaluation and optimization for sparse coding based speech processing","volume":"310","author":"He","year":"2015","journal-title":"Inf. Sci."},{"issue":"6","key":"10.1016\/j.ins.2016.09.015_bib0012","doi-asserted-by":"crossref","first-page":"3092","DOI":"10.1109\/TIP.2012.2186310","article-title":"Impact of the lips for biometrics, image processing","volume":"21","author":"Liu","year":"2012","journal-title":"IEEE Trans. Image Process."},{"issue":"2","key":"10.1016\/j.ins.2016.09.015_bib0013","doi-asserted-by":"crossref","first-page":"233","DOI":"10.1109\/TIFS.2013.2293025","article-title":"Learning multi-boosted HMMs for lip-password based speaker verification","volume":"9","author":"Liu","year":"2014","journal-title":"IEEE Trans. Inf. Forensics. Secur."},{"key":"10.1016\/j.ins.2016.09.015_bib0014","first-page":"198","article-title":"Local structure based multi-phase collaborative representation for face recognition with single sample per person","volume":"346","author":"Liu","year":"2016","journal-title":"Inf. Sci."},{"key":"10.1016\/j.ins.2016.09.015_bib0015","doi-asserted-by":"crossref","first-page":"56","DOI":"10.1016\/j.ins.2016.04.021","article-title":"Extended local binary patterns for face recognition","volume":"358","author":"Liu","year":"2016","journal-title":"Inf. Sci."},{"key":"10.1016\/j.ins.2016.09.015_bib0016","series-title":"Proc. the 4th International Conference on Spoken Language Processing (ICSLP\"96)","first-page":"62","article-title":"Speaker identification by lipreading","volume":"1","author":"Luettin","year":"1996"},{"key":"10.1016\/j.ins.2016.09.015_bib0017","series-title":"Evaluation Protocol for the Extended M2VTS Database (XM2VTSDB)","author":"Luettin","year":"1998"},{"key":"10.1016\/j.ins.2016.09.015_bib0018","series-title":"Proc. 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)","article-title":"The role of dynamics in visual speech biometrics","volume":"4","author":"Mason","year":"2002"},{"issue":"2","key":"10.1016\/j.ins.2016.09.015_bib0019","doi-asserted-by":"crossref","first-page":"198","DOI":"10.1109\/34.982900","article-title":"Extraction of visual features for lipreading","volume":"24","author":"Matthews","year":"2002","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.ins.2016.09.015_bib0020","series-title":"Proc. The Second International Conference on Audio and Video-Based Biometric Person Authentication","first-page":"964","article-title":"XM2VTSDB: The Extended M2VTS Database","author":"Messer","year":"1999"},{"key":"10.1016\/j.ins.2016.09.015_bib0021","doi-asserted-by":"crossref","first-page":"607","DOI":"10.1038\/381607a0","article-title":"Emergence of simple-cell receptive field properties by learning a sparse code for natural images","volume":"381","author":"Olshausen","year":"1996","journal-title":"Nature"},{"issue":"2","key":"10.1016\/j.ins.2016.09.015_bib0022","doi-asserted-by":"crossref","first-page":"50","DOI":"10.1109\/MSP.2004.1276113","article-title":"Authentication gets personal with biometrics","volume":"21","author":"Ortega-Garcia","year":"2004","journal-title":"IEEE Signal Process. Mag."},{"key":"10.1016\/j.ins.2016.09.015_bib0023","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1016\/j.ins.2015.04.013","article-title":"A survey on fingerprint minutiae-based local matching for verification and identification: Taxonomy and experimental evaluation","volume":"315","author":"Peralta","year":"2015","journal-title":"Inf. Sci."},{"key":"10.1016\/j.ins.2016.09.015_bib0024","unstructured":"S. Pigeon. The M2VTS Database, Laboratoire de Telecommunications et Teledection, Place du Levant, 1996."},{"issue":"8","key":"10.1016\/j.ins.2016.09.015_bib0025","first-page":"1","article-title":"Efficient implementation of the K-SVD algorithm using batch orthogonal matching pursuit","volume":"40","author":"Rubinstein","year":"2008","journal-title":"CS Technion."},{"key":"10.1016\/j.ins.2016.09.015_bib0026","series-title":"Proc. IEEE Conference on Computer Vision and Pattern Recognition","first-page":"994","article-title":"Object recognition with features inspired by visual cortex","author":"Serre","year":"2005"},{"key":"10.1016\/j.ins.2016.09.015_bib0027","series-title":"Proc. the 5th IAPR International Conference on Biometrics (ICB)","first-page":"472","article-title":"Speaker identification using optimal lip biometrics","author":"Singh","year":"2012"},{"issue":"11","key":"10.1016\/j.ins.2016.09.015_bib0028","doi-asserted-by":"crossref","first-page":"45","DOI":"10.1016\/j.ins.2014.02.031","article-title":"Hand shape identification on multirange images","volume":"275","author":"Travieso","year":"2014","journal-title":"Inf. Sci."},{"issue":"9","key":"10.1016\/j.ins.2016.09.015_bib0029","doi-asserted-by":"crossref","first-page":"3328","DOI":"10.1016\/j.patcog.2012.02.016","article-title":"Physiological and behavioral lip biometrics: a comprehensive study of their discriminative power","volume":"45","author":"Wang","year":"2012","journal-title":"Pattern Recog."},{"issue":"12","key":"10.1016\/j.ins.2016.09.015_bib0030","doi-asserted-by":"crossref","first-page":"1760","DOI":"10.1109\/TCSVT.2008.2004924","article-title":"An automatic lipreading system for spoken digits with limited training data","volume":"18","author":"Wang","year":"2008","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.ins.2016.09.015_bib0031","series-title":"Proc. 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)","first-page":"2389","article-title":"The use of temporal speech and lip information for multi-modal speaker identification via multi-stream HMMs","author":"Wark","year":"2000"},{"key":"10.1016\/j.ins.2016.09.015_bib0032","doi-asserted-by":"crossref","first-page":"138","DOI":"10.1016\/j.ins.2013.02.051","article-title":"Using the idea of the sparse representation to perform coarse-to-fine face recognition","volume":"238","author":"Xu","year":"2013","journal-title":"Inf. Sci."},{"key":"10.1016\/j.ins.2016.09.015_bib0033","series-title":"Proc. 2009 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1794","article-title":"Linear spatial pyramid matching using sparse coding for image classification","author":"Yang","year":"2009"},{"issue":"7","key":"10.1016\/j.ins.2016.09.015_bib0034","doi-asserted-by":"crossref","first-page":"1254","DOI":"10.1109\/TMM.2009.2030637","article-title":"Lipreading with local spatiotemporal descriptors","volume":"11","author":"Zhao","year":"2009","journal-title":"IEEE Trans. Multimedia"},{"key":"10.1016\/j.ins.2016.09.015_bib0035","series-title":"Proc. 2013 International Conference on Machine Learning and Cybernetics (ICMLC)","first-page":"2","article-title":"Liveness detection using time drift between lip movement and voice","author":"Zhu","year":"2013"}],"container-title":["Information Sciences"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0020025516307599?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0020025516307599?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2018,9,8]],"date-time":"2018-09-08T13:53:30Z","timestamp":1536414810000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0020025516307599"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,12]]},"references-count":35,"alternative-id":["S0020025516307599"],"URL":"https:\/\/doi.org\/10.1016\/j.ins.2016.09.015","relation":{},"ISSN":["0020-0255"],"issn-type":[{"value":"0020-0255","type":"print"}],"subject":[],"published":{"date-parts":[[2016,12]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Visual speaker identification and authentication by joint spatiotemporal sparse coding and hierarchical pooling","name":"articletitle","label":"Article Title"},{"value":"Information Sciences","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.ins.2016.09.015","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2016 Elsevier Inc. All rights reserved.","name":"copyright","label":"Copyright"}]}}