[8화] 과거와 현재 그리고 미래의 검색 엔진

질량의 크기는 부피와 비례하지 않는다

 

제비꽃같이 조그마한 그 계집애가
꽃잎같이 하늘거리는 그 계집애가
지구보다 더 큰 질량으로 나를 끌어당긴다.
순간, 나는
뉴턴의 사과처럼
사정없이 그녀에게로 굴러 떨어졌다
쿵 소리를 내며, 쿵쿵 소리를 내며

심장이
하늘에서 땅까지 아찔한 진자운동을 계속하였다
첫사랑이었다.

김인육 시인의 ‘사랑의 물리학’

tvN드라마 ‘도깨비’에서 공유가 의자에 앉아 김고은을 바라보며 읊던 시입니다. 그냥 드라마 대본었는지 실제 있는 시였는지 검색해보신 분 계신가요? 어디서 무슨 키워드로 검색하면 결과가 잘 나올까요? 저는 ‘도깨비 공유 시’라는 키워드로 검색해봤습니다. 김인육 시인의 ‘사랑의 물리학’이라는 시였군요.

2016년 12월 20일 오후4시 같은 키워드로 네이버(좌), 다음(중), 구글(우)에서 검색한 결과입니다. ⓒ마이크로소프트웨어

막상 찾으려니 생각나는 검색 서비스들이 딱히 많지 않았습니다. 네이버, 다음, 구글… 좀 더해서 네이트, 줌 정도였죠. 2016년 대한민국 검색 엔진은 네이버, 다음, 줌, 네이트, 구글 정도로 압축되어 있습니다. 특별히 서로 검색 점유율을 올리기 위한 광고도 보기 힘들고, 각축전을 보이지도 않고 있죠.

하지만 라이코스의 검은색 강아지가 뛰어다니고, 네이버가 극장 광고를 하고, 다음은 야후를 디스하던 시절이 있었습니다.

월간 마이크로소프트 2000년 3월의 특집으로 검색 엔진의 시초들을 함께 만나보시죠.

검색 엔진
과거와 현재 그리고 미래

1945년으로 거슬러 올라갑니다.

1945~1955년
하이퍼텍스트의 개념을 처음으로 고안한 Vannervar Bush의 논문을 정보검색의 시작점으로 보는 견해가 지배적이었다는군요. 2010년까지 전세계 도서관의 내용을 빠르게 검색하는 것이 목표였는데, 이미 1990년대 후반 인터넷의 힘으로 완성되었습니다.

요람기
1960년대
많은 검색 엔진 개발자들은 다양한 시도와 대규모 용량의 정보검색 시스템 초기 모델이 등장했던 이 시절을 ‘위대한 경험의 시대’로 얘기합니다. 당시 수작업에 의존하는 색인을 효과적으로 처리하는 시스템 구조가 설계됐고, 질의어 패턴 매칭을 통해 검색하는 프리-텍스트(Free-Text) 색인이 보편화되었습니다. 다만, 문서의 수가 많아지면 검색속도가 매우 떨어졌습니다.
그로 인해 성능 평가를 위한 ‘재현율’과 ‘정확률’이라는 기준을 만들었습니다. 재현율은 질의어를 입력할때 찾을 수 있는 문서의 양이며, 정확률은 검색 결과에서 실제 원하는 정보의 양을 뜻합니다. 1960년대에는 문서의 수가 많지않아 재현율보다는 정확률이 더 큰 과제였다고 합니다.

유년기
1970년대
워드프로세서의 등장으로 전자 문서의 시대가 열렸습니다.실제 검색 엔진 시스템이 형태를 갖추어 처리할 문서의 종류가 다양해지고 양도 증가했습니다. 세계 최대 규모의 도서관 네트워크 OCLC(Online Computer Library Center)가 등장해, 지금도 전세계의 도서관 및 정보센터의 서비스를 제공하고 있습니다.
1970년대에는 인공지능과 달리 고속성장을 시작한 검색 엔진은 인공지능에서 별개의 분야로 떨어져 나왔다고 합니다. 요즘 인공지능 검색으로 다시 둘이 합쳐지는 추세임을 고려해보면 참 아이러니 합니다.

성년기
1980년대
컴퓨터 성능 향상과 CD-ROM 등장은 대용량 정보 관리를 현실화 시켜줬습니다. 문서 담당자들의 일자리가 많이 사라졌다는군요. 메타 정보와 원문을 함께 검색해주는 검색 엔진이 사람을 대신하기 시작했나 봅니다.
검색 엔진 기술은 인터넷이 보편화 되기 전까지는, 문서를 가장 많이 다루는 도서관을 중심으로 발달했습니다.

성숙기

 

인터넷의 등장은 IT기술 전반에 걸쳐 영향을 주지 않은 곳이 없군요.

 

시계방향으로 네이버, 엠파스, 야후, 구글의 로고입니다. 엠파스는 네이트와 통합했고, 야후는 국내에서 철수했습니다. ⓒ마이크로소프트웨어

인터넷과 함께 시작한 1990년대, 드디어 1세대 검색 엔진 야후와 알타비스타가 등장합니다.
이후, 자연어를 검색하는 2세대와 자동분류 시스템을 갖춘 3세대가 바로 이어서 등장하는 검색 엔진의 황금시대가 열렸습니다.

사실 검색 엔진과 검색 서비스는 서로 다른 영역입니다. 야후, 알타비스타, 라이코스 같은 온라인 서비스는 검색 서비스에 속합니다. 검색 서비스 업체 중 자사에서 개발한 검색 엔진을 사용한 경우는 절반 정도였습니다. 야후는 잉크토미(Inktomi), 알타비스타와 익사이트(Excite)는 룩스마트(LookSmart)로부터 디렉토리 서비스를 제공받았습니다.

전문 검색 엔진 패키지와 검색 서비스의 등장으로 검색 엔진의 활성화가 본격적으로 이뤄지기도 했지만, 기존 검색 엔진들에 대한 문제점이 대두되면서 새로운 검색 엔진의 등장을 요구하는 전환기가 오기도 했습니다. 이때 등장한 업체가 구글(Google)입니다.

2000년의 검색 엔진 기술 5대 이슈  ⓒ마이크로소프트웨어

제대로 된 자연어 검색을 지원하기 위해서는 지식베이스의 구축이 선결 과제인데 주로 추론엔진, 조건부 확률, 신경망과 같은 기계학습을 기반으로 구축하는 것이 가장 정확도를 높일 수 있는 방법이라고 합니다.

마침, 구글이 신경망 기계학습을 통해 번역과 검색을 강화하고, 서점에는 딥러닝 관련 서적이 쏟아져 나오는 지금의 모습과 상당히 비슷해 보입니다. 2000년에 말하던 미래가 2016년이었을까요?

가장 인간적인 형태의 시나리오가 미래의 검색 엔진의 형태가 될 가능성이 높다. 원하는 정보를 휴대폰에 말로 설명하면 휴대폰에 대기하고 있던 에이전트가 검색 엔진 서버에 접속해 사용자의 패턴을 토대로 원하는 정보를 찾아서 잘 정리된 형태로 결과를 제시하게 될 것이다.
2000년에 예상한 미래의 검색 엔진

애플의 시리, 구글의 어시스턴트, 아마존의 알렉사 등 여러 음성 비서들이 하나 둘 늘어가는 것 역시 이미 예견된 미래였나 봅니다.

2000년 3월 월간 마소에 소개되었던 검색 엔진들을 소개합니다.


2000년의 심마니 ⓒ마이크로소프트웨어

심마니는 96년 초부터 국내 인터넷 사용자들에게 검색서비스를 제공해 인터넷 시간에서 5년을 맞이하는 서비스다. 디렉토리, 사이트, 웹문서, 도서, 음반, 상품 뉴스 등의 범위에서 검색을 지원하며, 유의어 검색, 확장 검색을 지원한다.
심마니 www.simmani.co.kr

심마니는아직 접속가능한 도메인입니다. LGU+의 자회사 미디어로그에서 페이지를 운영중입니다.


2000년의 네이버 ⓒ마이크로소프트웨어

네이버는 인터넷을 항해한다는 의미의 Navigate와 사람을 뜻하는 접미사 -er의 합성어로 ‘인터넷의 가이드’, ‘정보 바다의 항해사’라는 의미를 가지고 있다. 네이버는 초기의 국내 검색 서비스가 갖는 문제점을 향상된 검색 엔진 기술로 해결하고자 한다. 가장 자주 업데이트되는 많은 데이터 소스로부터 짧은 인덱싱 주기(전체 한달)를 바탕으로 약 웹문서 3백만 개 이상의 대용량을 처리하고 있다. 또한 국내 검색 서비스 중 가장 다양한 연산자(12가지)를 지원해 정교한 검색을 지원한다.


특히 네이버가 제공하는 위치연산(Proximity Operation) 기능은 매우 뛰어난 기술로 평가받고 있다. 위치 검색은 사용자가 입력한 키워드들 사이의 거리를 정해 해당거리 내에 키워드들이 존재하는 문서를 검색하는 기능이다.

네이버 www.naver.com

쥬니어 네이버는 이때부터 운영되어온 대표적 서비스죠.


2000년의 한미르 ⓒ마이크로소프트웨어

초창기에 알려진 검색 엔진 ‘정보탐정’에 포탈을 위한 부가서비스를 확충해 만들어진 검색 서비스이다. 개인화 서비스인 마이미르는 10MB의 무료 메일, 맞춤뉴스, 주소록, 달력과 홈페이지를 제공하며, 특히 한미르의 전화번호 무료 안내서비스는 전화번호와 함께 주소, 지도까지 제공해준다.

일본 문서의 검색 기능에 대한 지원도 한미르의 특징이라 할 수 있다. 한미르에서 일본어 번역 서비스를 이용하면 사용자가 누르는 하이퍼링크가 번역기에 전달돼 웹브라우저에서 원하는 문서의 한국어 번역본을 볼 수 가 있다. 초기 화면에서 재팬야후를 선택한 뒤 원하는 문서를 차례로 따라가면 유용하게 사용할 수가 있다.

한미르 www.hanmir.com

한미르는 이후, KTH에서 하이텔과 통합되어 파란닷컴에서 운영하다, 2012년 다음으로 통폐합되었죠.


2000년의 엠파스 ⓒ마이크로소프트웨어

AidSearch 검색시스템을 기반으로하여 정보를 좀 더 쉽고 빠르고 정확하게 찾아줄 수 있도록 돕기 위해 개발한 인터넷 검색 서비스로 자연어 검색기능과 키워드 추천기능 등이 다른 서비스와 차별화 되는 기능이다. 자연어 검색은 말 그대로 자연스럽게 입력해도 정보를 찾아주는 방식을 말하는데, 사용자가 검색 엔진의 사용법을 특별히 숙지하지 않고도 사용하게 해줄 수 있다는 장점을 가지고 있다.

인공지능 기술 측면에서 진정한 자연어 검색이 되기 위해서는 사용자의 자연어를 컴퓨터가 논리적으로 이해하고 추론해 해당하는 검색 결과를 보여줘야 하지만 아직 완벽한 자연어 검색 기술은 구현이 무척 까다롭다. 엠파스는 사용자의 질의를 실행시간에 분석해 자연어 검색과 유사한 기능을 제공하며, 앞으로 검색 엔진이 제공해야할 기술의 방향을 제시하고 있다고 볼 수 있다.

엠파스 www.empas.com

엠파스는 네이버 ‘지식in’에 앞서 원조 지식거래소를 운영했던 회사로 많이 회자되죠. 2009년 네이트로 통폐합되었습니다.


2000년의 와카노 ⓒ마이크로소프트웨어

라스21에서 자체 개발한 자바 기반의 검색 엔진 라스 서치웨어를 사용하고 있다. 기존 검색 엔진의 단점을 보강하는 메타 검색 서비스 및 가이드 포탈을 목표로 하고 있다.

1천여개가 넘는 전문 검색 엔진을 디렉토리 서비스로 제공하며, 사용자 개인화 서비스인 마이와(MyWA)는 사용자가 관심있는 전문 검색 엔진을 묶어서 자신만의 검색 엔진을 만들어 사용할 수 있게 해준다.

와카노 www.wakano.co.kr

 

와카노는 현재 행방을 알 수 없는 서비스가 되었습니다. 나무위키의 내용에 나와있는 일본 사이트도 지금은 확인이 불가능한 것 같습니다.


2000년의 야후 ⓒ마이크로소프트웨어

인터넷 검색 서비스의 대명사로 불리는 야후는 1994년 제리 양과 데이빗 파일로에 의해 만들어 졌으며, 가장 성공한 검색 서비스로 인정받고 있다. 야후(Yahoo!)라는 이름은 ‘Yet Another Hierarchical Officious Oracle’이라는 의미도 있지만 파일로와 양은 그들 자신이 걸리버 여행기에 나오는 인종(야후)이라고 생각하기 때문에 선택한 것이라고 한다.


야후는 150여명의 전문 에디터들이 백만 개 이상의 사이트를 분류하고 있다. 사람의 수가 많아지고 사아트의 양이 증가하긴 했지만 사람들의 수 작업에 의해 내용을 정리한다는 점에서 1994년 이후로도 변함이 없다. 다시 말하면 야후는 좋은 검색 서비스를 위해 필요한 것은 기술에 우선해 사용자가 원하는 것이 무엇인가를 먼저 생각하고 남들보다 한발 나서는 앞서가는 서비스 정신이라는 인터넷 비즈니스 모델의 표준을 제시하고 있는 것이다. 포탈 검색 서비스를 위한 콘텐츠의 확충, 사용자 커뮤니티를 위한 다양한 부가 서비스 등도 야후에 의해 먼저 시작된 것들이 많다.

야후 www.yahoo.com

한국을 비롯하여 많은 국가들에서 사업을 정리한 야후는 이제 일본 말고는 1위의 입지를 유지하고 있는 곳이 없다고 합니다. 그런데 그 일본마저도 점점 흔들리고 있다고 하는군요.


2000년의 알타비스타 ⓒ마이크로소프트웨어

디렉토리 서비스에 야후가 있다면 키워드 검색서비스에는 알타비스타가 있다. 알타비스타는 초기 인터넷 사용자들이 가장 많이 사용한 검색 서비스중 하나로 세계 각국의 다국적 포털을 구축하고 있다.


알타비스타 검색 서비스는 알타비스타 검색 엔진을 활용해 방대한 검색량을 처리한다. 알타비스타 검색 엔진은 1995년 디지탈에서 자체 개발한 알파 8400 서버의 성능을 시험하기 위해 개발한 검색 엔진 소프트웨어로 1995년 12월 디지탈에서 오픈한 이후 1998년 컴팩에게 소유권이 넘어갔으며, CMG로 분사됐다. 알타비스타는 콘텐츠 포탈을 위해 뉴스, 환율, 구인구직, 날씨, 증권, 실시간 스포츠 중계, 상품검색, 무료 E-메일, 경품정보 등을 제공하고 있다. 특히 애스크지브스(AskJeeves) 엔진을 도입해 ‘Ask Altavista’를 운영하는 등 초보자를 배려하고 있으며, 오픈 디렉토리의 디렉토리 리스팅을 제공하고 있다.


알타비스타의 기술적 내용을 살펴보면 대용량의 문서를 처리한다는 점과 기본 또는 고급으로 나뉘어진 강력한 검색 옵션, 다국어에 대한 폭넓은 지원 등을 꼽을 수 있다.

알타비스타 www.altavista.com

컴팩에 인수된 알타비스타는 2003년 오버추어에 인수됐습니다. 지금은 접속하면 야후로 포팅되어 넘어갑니다.


2000년의 익사이트 ⓒ마이크로소프트웨어

1995년 미국 ArchiText에 의해 서비스가 시작된 익사이트는 1996년 7월과 11월에 경쟁사였던 마젤란과 웹크로울러를 합병하면서 빠르게 성장했다. 특히 사용자의 개인화 서비스에 많은 노력을 하고 있다. My Excite, My Stock, My Weather, My News, My Sport, My Horoscope, My Services 등을 제공하는데, 익사이트를 한 번이라도 사용한 고객을 그냥 놓치지 않겠다는 포탈의 전략이라고 할 수 있다.


기술적인 측면에서 데이터 색인량이 매우 적다는 단점을 가지고 있지만 중요한 주제에 대해서는 매우 좋은 검색 결과를 보여준다는 장점을 가지고 있다. 중요한 주제에 대한 데이터베이스를 집중 구축해 검색의 질을 높였다고 볼 수 있다.

익사이트 www.excite.com

익사이트는 1999년 앳홈에 인수된 이후 마지막 흑자를 내고, 계속 내리막 길을 걸었습니다. 지금도 접속은 됩니다. 애스크지브스에서 2004년 서비스를 인수하여 지금의 애스크닷컴에서 운영중입니다.


2000년의 패스트서치 ⓒ마이크로소프트웨어

1997년 7월 16일 설립된 FAST(Fast Search & Transfer ASA)는 1999년 5월 자체개발한 검색 엔진을 델의 PowerEdge 서버에 장착해 서비스를 시작했다. 검색 엔진은 빠르고 정확해야 한다는 신념아래 ‘All the Web, All the Time’을 내세우고 있는 패스트서치는 단순하고 기능적인 검색 화면을 볼 수 있다.


카테고리는 크게 3억 개의 웹문서, 1억 개의 FTP파일, 백만 개의 MP3 파일, 1천7백만 개의 이미지와 사운드 파일 검색으로 구분했다. 색인된 데이터가 정기적으로 잘 갱신되지 않으며 불린 검색 옵션이 다양하지 못하다. 절단 검색과 대소문자 구분 검색 기능도 제공하지 않으며 구절 검색과 필드별 검색 기능도 다른 검색 엔진에 비해 기능이 부족한 편이다.

패스트서치 www.alltheweb.com

FAST사의 웹 사업부인 www.alltheweb.com 은 2003년 오버추어가 인수했고 이후 점진적 흡수로 야후 사이트에 합쳐졌습니다. 패스트서치의 검색 엔진 기술은 2008년 MS에서 인수후 로켓소프트웨어로 기업용 검색 엔진을 매각했습니다.

패스트서치의 기술은 2008년 MS에서 인수했고, 현재 도메인은 야후가 인수해서 포팅해놨습니다.


 

2000년의 애스크지브스 ⓒ마이크로소프트웨어

온라인 포탈을 위한 커뮤니티 제공과 더불어 가장 눈에 띄는 특징이 자연어 검색 서비스다. ‘Where can I find information about robot agent’라고 자연어로 검색할 수 있다. 결과를 보면 자연어 검색 서비스와 함께 어바웃 닷 컴, 웹크로울러, 인포시크, 알타비스타, 익사이트 등의 검색 결과를 메타 검색으로 묶어서 한 화면에 보여준다. 기존 검색 서비스와 달리 검색 결과를 옵션 박스를 이용해 한 화면에서 볼 수 있다.

애스크지브스 www.askjeeves.com

 

지금은 애스크닷컴 브랜드로 바뀌어 운영중입니다. 질문 응답에 특화된 서비스로 사이트 트래픽양으로는 상위를 유지하고 있죠.

검색 엔진과 서비스의 업계지도는 정말 많이 바뀐 것 같습니다. 요즘엔 하나의 주제를 기준으로 전문화된 추천 서비스가 늘고 있죠. 구글같은 웹 전체를 검색하는 엔진들이 새로 나올 수 있을지 미지수입니다. 페이스북이나 아마존도 자사의 서비스 안에서만 검색하고 있지만, 앞으로 어떻게 변화할지 지켜봐야할 것 같습니다.