6월 22일 오후 추가: SimCLR의 저자인 Ting Chen이라고 주장하는 사람의 레딧의 새로운 코멘트(tingchenbot)에 따르면 논문에서는 SimCLR의 아키텍쳐등에 대한 Novelty에 대한 주장을 한적이 없다고 한다. 그리고 그 결과의 원인이 강력한 컴퓨팅 파워뿐만이 아니라고 주장하기도 하네. 하지만 아래 다른 코멘트에서 언급하듯이, 저자들이 홍보수단으로 쓴 구글 블로그 글에서
“However, current self-supervised techniques for image data are complex, requiring significant modifications to the architecture or the training procedure, and have not seen widespread adoption.”
라고 언급한 점이나, 논문에서 찾아볼 수 있듯이
By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet.
이나
Not only does SimCLR outperform previous work (Figure 1), but it is also simpler, requiring neither specialized architectures (Bachman et al., 2019; Hénaff et al., 2019) nor a memory bank (Wu et al., 2018; Tian et al., 2019; He et al., 2019; Misra & van der Maaten, 2019).
처럼 언급하는 점에서는 해당 아키텍쳐등에서 노벨티가 없다고 말하지 않음을 통해 노벨티를 함의하는 것으로 보인다. 그냥 While most of our architectures are from the literature 같은 문장으로 첨언만 해주었으면 충분할거같은데… 이런 부분은 항상 논문에서 명확하게 밝혀야 한다고 생각하는데, 논문의 억셉을 위해 자주 숨기는 부분이기도 한듯 -_-..
학술지나 학회에서 리뷰과정에서 리뷰어와 논문 저자가 서로를 모르는 상태에서 리뷰를 진행하는 것을 더블 블라인드 리뷰라고 한다. 그런데 인터넷에서 연구결과를 공유/광고하는게 활성화된 상태에서는 이 블라인드가 잘 작동하지 않는다는 (친구의 페이스북에 공유된) 레딧의 글.
특히 이 논의는 머신러닝과 NeurIPS에 관해 집중하여 논의되고 있다. 코멘트에서 문제로 드는 예시는 여러 트위터의 광고성 글이 언급되는데, 특히 구글 브레인에서 발표한, 2018년 튜링상을 받은 제프리 힌튼이 참여한 SimCLR이라는 논문이 2019년 CVPR의 Mang Ye 등이 발표한 결과와 사실상 같다는 충격적인 논의도 진행된다. 코멘트를 든 사람들에 따르면 두 논문의 본질적 차이는 개인이 재현하기 힘든 강력한 컴퓨팅 파워에 기인한 것이며, SimCLR 논문에 2019년 CVPR논문과 비교를 하긴 하는데 그 비교가 사실상 허울에 불과하고, 심지어 일부 비교는 코드를 확인해보니 틀렸다는 지적마저도 나타난다. 게다가 그 비교도 서플리멘터리 맨 마지막 문단에야 나온다는…. 사실인지 믿기 힘들정도의 지적. 이건 광고만의 문제가 아닌것같다 -_-… SimCLR은 2020년 2월에 나왔는데 벌써 (구글 스콜라 기준) 64번 인용되었고, Mang Ye의 논문은 한참되었는데 이제 33번 인용.
충격적일 정도다 ㅋㅋㅋ 머신러닝학회가 논문 제출이 너무 많아 리뷰과정 자체가 잘 안돌아가긴 한다는 말을 듣긴 했는데.. 예를 들어 작년 NeurIPS 2019는 6743개의 논문이 -_- 제출되었다고. 그래서 최근 머신러닝계열 학회에서는 리뷰어를 찾는다고 분야를 잘 모르는 대학원생들도 리뷰에 엄청나게 참여하는 모양이라고 한다. (사실 CS분야가 약간은 그런 경향이 있는것같긴 하지만..) 아카이브에 지난 12월간 공개된 cs.LG 태그를 단것만 찾아봐도 27000개가 넘게 나오는구만. 그래서 논문의 저자가 공개될 때 (혹은 찾을 수 있을때) 더 좋은 논문들을 냈던 저자가 더 좋은 평을 받는다는 매튜효과가 엄청나게 일어나나보다.
내가 몸담고 있는 이론적 컴퓨터과학(Theoretical Computer Science, TCS)쪽에도 이런 논의가 많이 있었던 모양인데, 특히 크누쓰 상을 받기도 했던 골드리치(Oded Goldreich)선생의 왜 익명논문이 나쁜아이디어인가 (Why is anonymous submission a bad idea)라는 에세이를 재밌게 읽었던 적도 있다. 여기서 소개한 결과중 다음과 같은것도 있다: WSDM 2017 학회에서는 싱글 블라인드(리뷰어는 공개하지 않지만 저자는 공개하는것)와 더블 블라인드를 동시에 진행해서 싱글 블라인드 리뷰어가 더블 블라인드 리뷰어보다 훨씬 좋은 직장을 가진 사람들의 논문을 다양하게 선호했다는 논문.
골드리치가 이걸 부정하는건 아니고, 요점은 TCS계열은 훨씬 덜 권위적이기도 하고 그 편견같은게 저자보다는 “보이는” 학문적 깊이(예를들어 어려운 수학을 쓴다던가 하는)나 이를 포장한 방식에 훨씬 의존하는것으로 보이고, 위처럼 더블 블라인드로는 광고하는것을 막기 힘들다는 등 여러가지 논점을 제시한다. 또한 더블 블라인드는 하나의 해결책일 뿐이고, 문제와 해결방식을 잘 논의해서 고르지 않으면 그 해결책은 문제가 전부 해결되었다는 환상만을 줄 뿐이라고. 별로 좋은 요약은 아니고 궁금하면 일독을 권함 ㅋ.
다만 나는 골드리치의 글에는 별로 동의하지는 않는다. 내 의견으로는 (최소한) 싱글/더블 블라인드 등에서 많이 달라질게 없는 것은 이미 학회의 중심에 포함된 사람들의 얘기고, (특히 외국에서) 새로 진입하는 사람의 경우는 명백히 더블 블라인드의 장점을 겪는 것으로 보인다. 물론 더블 블라인드가 최적의 방식이라는 것은 아니고, 새로운 방식이 필요해 보인다.
지난번 언젠가 언급한 흥미로운 논문들이 위로 올라오는 Scirate같은 방식도 (약간은 잔혹하지만..) 구글 등의 결과가 위로 올라가는걸 막긴 어렵지만, 최소한 이런 사이트를 구독하는 사람들에게는 위 SimCLR같은 표절같은 문제를 없애기에는 (코멘트에서 논의할테니) 괜찮아 보이기도 하며 여러가지로 좋아보임.
다른 방식으로는 레딧 글에서 논의하는, 더블 블라인드로 리뷰를 진행하는 학회에서 리뷰기간동안 결과를 실명으로 공개하는 것을 금지하고 (지금 대부분의 CS학회는 이를 딱히 막지는 않는 것으로 알고, TCS학회는 심지어 실명으로 아카이브에 올리는 것을 권장한다.) 일정기간 anonymous로 업로드하는 기능을 arxiv에 추가하는 건데, 이것도 꽤 재미있어 보이기도 한다. 다만 회사들의 특허이슈라던가 어른들의 사정으로 실제로 진행하기는 조금 어렵지 않을까.. 하는 생각이 든다.