[엔비디아 GTC 2015] 中 딥 러닝 이끄는 앤드류 응 교수…”딥 러닝이 인류의 모든 것 바꾼다”

[캘리포니아 산호세(미국)=서준석 기자] “로켓을 만들려면 로켓 엔진과 이 로켓 엔진을 구동시킬 연료가 필요합니다. 딥 러닝이 로켓이라면 대규모 뉴럴 네트쿼워크는 엔진이고, 대량의 데이터는 연료입니다. 두 가지가 공존해야만 딥 러닝이 가능한 것이죠.”

캘리포니아 산호세에서 열린 엔비디아 GTC(GPU Technology Conference) 2015 키노트 무대에 오른 바이두연구소(Baidu Research)의 앤드류 응(Andrew Ng) 교수는 최근 딥 러닝(Deep Learning) 연구가 활발하게 일고 있는 이유를 설명하며 이렇게 말했다. 그는 GPU 기반의 대규모 뉴럴 네트워크가 형성되면서 몇 년간 부진했던 인공지능 연구들이 실제적인 성과를 드러내고 있다고 덧붙였다.

앤드류 응 교수는 바이두연구소로 옮기기 전 구글에서 브레인 프로젝트를 주도한 인물이다. 그가 구글에서 만든 인공신경망은 수백만 개의 유튜브 동영상에서 스스로 고양이를 식별해 내는 데 성공하면서 딥 러닝의 가능성을 열었다.

중국 최대 검색포털사이트인 바이두는 2014년 3억 달러를 미국 실리콘밸리에 연구소를 설립하면서 앤드류 응 교수를 영입했다. 그는 현재 2013년 설립된 베이징 바이두연구소와 미국 실리콘밸리 연구소를 총괄하고 있다.

또한 앤드류 응 교수는 타임지가 선정한 세계 영향력 있는 100인 중 한 사람으로 지목된 바 있으며, 학계와 업계에서도 그를 딥 러닝 연구을 이끄는 핵심 인물 가운데 한 사람으로 거론한다.

그는 GTC 기조연설 무대에서 ‘딥 러닝: 다음은 뭘까(Deep Learning: What’s Next)’라는 주제로 딥 러닝을 통해 변화한 것들을 설명했다.

앤드류 응 교수는 인간의 뇌 구조를 닮은 신경망(Neural Network)이 딥 러닝을 가능케 하면서 컴퓨터가 이미지를 인식하고 분석해 내는 능력이 급격히 향상됐다고 전했다. 그는 “과거에는 한 장의 이미지에서 머그컵을 분류해 내는 것도 쉽지 않았습니다. 그러나 HPC(High Performance Computing)를 통해 신경망을 구축하게 되면서 계산 능력이 향상됐고, 또 태그 정보를 포함한 이미지를 통해 컴퓨터가 머그컵을 정확히 찾아낼 수 있게 됐죠”라고 말했다.

CPU나 GPU의 스케일이 넓어질수록 딥 러닝을 통한 분석 능력도 향상된다는 게 그의 설명이다. 그에 따르면 2007년 100만 개 CPU로 분석했던 것이 2008년에 1000개 GPU를 활용하게 됐고, 2010년 클라우드 기반의 10억 개 CPU 코어로, 현재는 1000억 개 GPU를 사용하는 HPC까지 확대됐다.

그는 “CPU와 GPU는 기술 자체가 많이 다르고 커뮤니티나 컨퍼런스에서 다루는 내용도 다르죠. 딥 러닝을 다루는 데는 GPU 기술을 활용한 HPC가 더 효율적이라고 봅니다. 실제로 바이두연구소에서 이를 테스트한 결과 더 많은 GPU를 활용했을 때 정확도를 높일 수 있다는 결과를 얻었죠”라고 말했다.

바이두연구소의 테스트 결과
바이두연구소의 테스트 결과

이어 2장의 인물 사진을 입력해 컴퓨터가 같은 인물인지, 혹은 다른 인물인지를 골라내는 실험에 대해 설명했다. 실험에는 6000 쌍의 사진이 사용됐으며 마이크로소프트, 페이스북, 홍콩중문대학, 구글, 바이두가 참여했다. 그 결과 각각 3.67%, 1.64%, 0.53%, 0.37%, 0.15%의 에러율로 바이두가 가장 높은 성적을 냈다.

시진 인식 테스트 결과
시진 인식 테스트 결과

그는 이 결과에 대해 “구글과 페이스북이 로켓 연료에 해당하는 데이터는 많이 가지고 있지만, 로켓 엔진에 해당하는 대규모 인프라 투자에 대해서는 바이두가 앞서 있기 때문에 이런 결과가 나온 것”이라고 분석했다. 이 결과는 6000 쌍의 사진 가운데 단 9 쌍을 맞추지 못 한 것이었는데, 그 가운데 2 쌍은 기초 데이터가 잘못돼 나온 것이었다.

이러한 사진 인식 기술은 조금 더 발전해 단순히 인물을 구분하는 것에서 이제는 사진을 묘사하는 수준으로 발전한다. 가령 스쿨버스가 달리는 것을 “노랑 버스가 녹색 잔디와 나무를 배경으로 한 도로를 달라고 있다”와 같이 문장으로 컴퓨터가 표현해내는 것인데, 이를 바이두는 사진 검색 엔진에 적용했다고 앤드류 응 교수는 전했다.

최근 구글이나 페이스북 등이 이런 이미지 인식 기술을 다양한 분야에 활용하고 있다. 바이두는 이러한 비전 컴퓨팅 기술을 ‘바이두 아이(Baidu eye)’라는 자사의 웨어러블 기기에 적용했다. 이를 통해 사람이 보는 사물 등의 정보를 자동으로 검색해 보여준다. 구글이 연구했다가 사실상 중단되 구글글래스(Google Glass)와 비슷한 웨어러블 기기라고 보면 된다.

그는 이미지 인식 기술 외 딥 러닝을 기반으로 한 수준 높은 음성인식 기술도 인간의 삶을 윤택하게 하는 데 큰 도움이 된다고 강조했다.

“중국의 리청양(Li Chongyang)이라는 아이는 앞이 보이지 않는 맹인이기 때문에 터치 기반의 스마트폰을 사용하는 데 어려움이 많습니다. 다행이 스마트폰에 음성인식 기능이 있어서 이를 통해 거의 모든 스마트폰 기능을 사용할 수 있죠. 리청양은 음성인식이 맹인들에게 엄청난 영향을 주고 있다며 저에게 음성인식 기술에 대한 연구를 계속 해 달라고 부탁했죠.”

앤드류 응 교수는 음성인식 기술의 잠재력에 대해 기대감이 남달랐다. 스마트폰의 등장으로 맹인뿐 아니라 일반인에게도 상당한 영향력을 행사할 것이라는 게 그의 생각이다. 그러나 음성인식 기술의 한계는 각종 소음으로 인해 사용자의 목소리만 정확히 분석해 내기 어렵다는 문제를 가지고 있다.

앤드류 응 교수는 이 음성인식에도 딥 러닝을 활용해 문제를 해결했다. ‘바이두 딥 스피치(Baidu Deep Speech)’가 바로 그것이다. 그는 기존 음성인식 알고리즘이 겪고 있던 음소(Phonome) 문제를 딥러닝 알고리즘을 적용함으로써 해결했다. 이를 위해 데이터로만 10만 시간에 해당하는 오디오 데이터셋을 입력했다.

바이두 딥 스피치의 알고리즘
바이두 딥 스피치의 알고리즘
10만 시간의 데이터셋 입력
10만 시간의 데이터셋 입력

역시 이를 통해 애플, 마이크로소프트의 빙, 페이스북, 구글 등의 음성인식 기술보다 바이두 딥 스피치가 적은 에러율을 기록할 수 있었다는 게 앤드류 응 교수의 주장이다.

기조연설 무대에서 앤드류 응 교수는 바이두연구소 팀이 개발한 바이두 딥 스피치의 라이브 데모를 시연했다. 웹 기반으로 구현된 바이두 딥 스피치는 사용자가 업로드한 동영상으로부터 출력된 음성을 정확히 인식해 글자(Text)로 보여줬다.

속도와 정확도 비교를 위해 앤드류 응 교수는 하단에 다른 음성인식 API를 넣어 보여주었는데, 해당 API는 소음이 많은 환경이나 영상의 길이가 길 경우 제대로 동작하지 않는 문제를 일으켰다. 반면에 바이두 스피치는 노이즈를 상당히 높였음에도 불구하고 높은 정확도로 동영상의 음성을 분석해 냈다.

그는 현재 음성인식 정확도가 99%가 되면 일상의 많은 부분이 변화할 것이라고 말했다. 특히 스마트폰의 인터페이스도 음성인식 기반으로 재설계해야 할 것이며, 자동차나 홈 어플라이언스, 웨어러블 등의 사물인터넷 기기들도 음성인식으로 동작하도록 디자인해야 할 것이라고 전했다. 마지막으로 그는 이런 변화들의 우리 행동 또한 변하게 할 것이라며 컴퓨팅 기술의 발전이 인류를 좀 더 나은 곳으로 인도할 것이라고 말했다.

“우리는 수퍼파워를 가지고 있습니다. 여러분도 인류에 도움이 되는 위대한 일을 만들기 위해 이 수퍼파워를 사용하길 희망합니다.” [마소]

답글 남기기