Login     Mobile II
Hint Food 맛과향 Diet Health 불량지식 자연과학 My Book 유튜브 Frims 원 료 제 품 Update Site

Network검색엔진

검색 : Search engine

- 검색엔진 역사
- 구글 검색엔진
- 순간검색기 OzSearch
- 시맨틱 검색엔진

- 검색엔진의 한계

수집기 : 로봇(크롤러)
색인기 : 스토리지, 필터, 형태소분석기, 스테머, ...
검색기 : 형태소분석기, 스태머, 랭커, 질의분석기, 브로커

◆ 검색엔진의 종류와 특성

검색엔진은 기술적인 면에서 △인덱스(키워드 검색) △디렉터리(메뉴 검색) △통합검색 방식 등으로 크게 구분된다.

인덱스는 가장 일반적인 방식으로 검색어가 포함된 웹 페이지를 검색한다. 검색엔진에 내장된 검색로봇이 주기적으로 인터넷의 정보를 검색해 검색엔진 업체의 컴퓨터에 보내고 인덱스 DB를 업데이트한다. 검색로봇의 데이터 추출 방법과 효율성에 따라 검색엔진의 성능이 결정된다. 그러나 인덱스 방식은 검색 결과가 너무 많아 검색자를 혼란스럽게 하고, 웹 페이지의 내용이 검색자가 원래 찾으려던 의도와 맞지 않을 가능성이 높다. 알타비스타(www.altavista.com), 라이코스(www.lycos.com), 네이버(www.naver.com), 심마니(www.simmani.com) 등이 있다.

디렉터리 방식은 인터넷의 웹 페이지들을 주제와 계층별로 구분해 DB를 구축한다. 사람이 직접 문서를 수집하고 관리하기 때문에 웹 페이지 내용의 신뢰도가 높은 것이 장점. 그러나 검색된 웹 페이지의 수가 상대적으로 적다는 것이 단점이다. 야후(www.yahoo.com)가 대표적이다.

통합검색 방식은 별도의 인덱스 DB를 보유하지 않고 사용자가 입력하는 검색어를 다른 검색엔진에 보내 검색결과를 사용자에게 통합적으로 보여준다. 검색 방법은 인덱스 방식과 비슷하다. 메타크롤러(www.metacrawler.com), 올인원(www.albany.net/allinone) 등이 이 방식을 채택하고 있다.

검색엔진을 단순히 모아 놓기만 한 메타 검색엔진도 있다. 11개 분야 200여 검색엔진을 제공하는 올원서치(allonesearch.com), 24개 분야 300여 검색엔진을 제공하는 서치컴(www.search.com) 등이 이 부류다.

◆ 미국 검색 시장의 1인자는 단연 구글이다. 하지만 검색엔진은 구글만 있는 것은 아니다

히트와이즈가 웹 트래픽을 측정한 결과, 최근 구글의 미국 검색시장 점유율은 64%를 넘었다. 지난해 3월 대비 10%포인트 이상 늘어난 수치다. 이런 추세대로라면 올해 안에 미국 검색시장 점유율이 3분의 2를 훌쩍 넘어설 전망이다. 하지만 검색엔진은 구글만 있는 것은 아니다. 구글이 기술·철학·조직에서 탁월한 면이 많지만 기술 개발이 빠르게 이뤄지는 인터넷 분야에서는 구글도 도전에 직면할 수밖에 없다. 특정 분야나 기술에서 전문성과 강점을 가진 검색엔진들이 속속 선보여 나름의 영역을 구축해 가거나 선보일 준비를 하고 있기 때문이다. 바로 애스크닷컴·파워셋·애스크미나우·하키아·디거·블링스·코스믹스·리트리보 등이 그들이다.

많은 신규 검색엔진들은 자연어나 시맨틱 검색기술을 사용한다. 이런 검색엔진은 “달에 처음으로 간 사람은 누구인가?” 같은 평범한 질문에 의미있는 결과를 적절히 제공한다.  어떤 검색엔진은 전문가 시장에 초점을 맞춰 새로운 방향을 모색하고 있다. 현재 인기를 누리고 있는 유명 검색엔진들은 대부분은 키워드에 근거해 웹 페이지의 목록을 보여주는 데 힘을 쏟는다. 그러나 키워드 기반 검색엔진은 평범한 자연어 검색어에 잘 대처하지 못하는 단점이 있다.

애스크닷컴(www.ask.com)은 ‘엑스퍼트랭크’라고 불리는 특정주제 인기 랭킹 기술을 사용해 종종 구글보다 나은 검색 결과를 제공한다. 검색 결과를 보여 줄 때 웹 페이지에 링크된 횟수에 따라 웹 페이지의 목록을 보여주는 방식을 넘어, 검색 주제 관련 웹 페이지를 전문가의 시각을 근거로 순서를 결정해 보여준다. 이 기능 때문에 애스크닷컴은 지속적으로 적절한 검색 결과를 제공한다.

파워셋(www.powerset.com)은 자연어 처리의 한계에 도전하고 있다. 파워셋은 미국 실리콘밸리 소재의 신생업체로 키워드 검색의 한계를 뛰어넘는 검색엔진을 개발하기 위해 자연어의 구조와 뉘앙스를 사용한다. 아직 서비스는 본격화하지 않았다.

애스크미나우(www.askmenow.com)는 자연어 시맨틱 검색 기술을 이용해 휴대폰용 검색 서비스를 제공하고 있다. 이동통신 서비스 가입자들은 휴대폰 키패드에서 “애스크미(ASKME)”를 입력하고 몇 초를 기다리면 된다. 이동통신 서비스 가입자들은 휴대폰에 SW를 내려받고 월 5달러의 비용을 내면 사용할 수 있다. 같은 기술을 사용한 웹 기반 서비스도 곧 선보일 예정이다.

하키아(www.hakia.com)는 현재 베타 버전을 시범적으로 운영 중이며 올해 상용 서비스를 선보일 계획이다. 이 회사는 첫 시맨틱 웹 분야 기업이 될 것으로 꼽히던 곳 중 하나로, 유럽의 벤처캐피털 컨소시엄에서 투자를 유치했다. 하키아는 검색자들이 입력한 질문을 이해해 의미 기반의 검색을 수행할 수 있다. 실제 상대적으로 복잡한 질문에 대해 구글보다 뛰어난 검색 결과를 제공한다. 특히 의약품·법률·재무·과학·문학 같은 집약적 주제 검색에 뛰어나다.

텍스트디거가 제공하는 검색엔진 디거(www.digger.com)는 검색자가 입력한 검색어가 어떻게 다뤄지는지 알려주고 결과를 보여주며 오해를 바로잡는지 알려준다. 디거는 검색속도가 조금 느리긴 하지만 일반적 질문에 적합한 검색 결과를 제공한다. 현재 베타 버전이며 테스트하려면 ID와 비밀번호를 등록해 입력해야 한다.

블링스(www.blinkx.com)는 동영상 검색엔진으로 뛰어난 검색 결과를 제공한다. 블링스는 이미 오디오와 비디오 및 TV 프로그램 700만시간 이상 분량의 목록을 구축했다. 코스믹스(www.kosmix.com)는 건강·여행·재무·미국 정치 등의 분야에서 깊이 있는 검색 서비스를 제공한다.


------------------
검색의 미래에 대한 얘기들
2009-02-13 솔트룩스 김건오

◆ 일반적인 검색의 발전 단계
검색의 발전에는 기본적인 단계가 있다. 큰 발전의 단계로 이미 오래 전부터 제시되어왔던 내용은 다음과 같다.

1단계: 패턴 매칭
데이터를 색인화(주로 Inverted File의 형태로) 한다. 색인화된 데이터는 사용자의 검색어에 대해 패턴 매칭을 수행하고 최종적으로 검색어에 대한 검색결과로 제공된다. 여기에는 패턴 매칭을 보다 잘 하기 위한 형태소분석 등의 기술이 사용된다. 사용자는 데이터에 있는 검색어 만을 이용하여 자료를 검색할 수 있는 단계이다.

2단계: 메타데이터 생성
데이터에 색인을 할 뿐만 아니라, 데이터 자체에 없는 메타데이터를 달거나 추출하여 데이터를 조직화한다. 사용자가 검색어를 입력하지 않아도 메타데이터에 의해 이미 조직화된 데이터를 분류나 군집 등의 형태로 보관하고 이를 시각화 함으로써 단순 검색 결과 리스트가 아닌 검색어와 조직화한 데이터를 결합한 다양한 사용자 인터페이스를 제공한다. 텍스트 마이닝과 같은 기술이 주로 사용된다.

3단계: 메타데이터 의미 연결
메타데이터의 추출 결과를 의미적으로 연결하여 A문서의 저자가 B문서의 저자 표기가 각각 국문과 영문으로 다를 지라도 같은 사람이라는 결과를 제공하거나, 그 저자의 주소, 전화번호 등과 같은 추가 정보를 의미적으로 제공한다. 여기에는 메타데이터를 표현하거나 저장하기 위해 분류체계나 시소러스, 온톨로지와 같은 지식 표현 체계가 사용된다.

4단계: 메타데이터의 관계 활용
메타데이터 간의 관계 정보를 별도의 지식체계로 활용하여 저자가 사람이고, 사람은 이름을 가지고 있으며, 나이가 있다는 지식(보통은 온톨로지라고 하는 메타데이터 모델링을 이용하여 컴퓨터에 이러한 지식을 저장함)을 이용하여 A문서의 저자에 대해 나이를 검색하거나 질의할 수 있는 수단을 제공한다. 이러한 메타데이터 관계를 이용하기 위해서는 추론엔진이 검색에 포함되거나 결합된다.

현재는 어떤 단계일까? 인터넷 자체는 아직도 <2단계>에서 메타데이터가 부족한 상태라고 보여지고, 일부 기업과 공공기관에서는 <3단계>에서 다양한 메타데이터의 의미 연결이 되지 않는 상태로 보여진다.

◆ 2009년의 검색 경향 예상

1. 검색엔진이 원하는 걸 찾아주면 좋겠지만 그렇게 까지 발전하기는 어렵다고 보며, 최소한 남들이 원하는 것이 무엇인지를 알려주는 기능은 제공하게 될 것으로 본다. 이는 개인화 기능이 아니며, 오히려 사회화 기능이라고 해야 할까? 인기 검색어 제공은 이 기능의 기초적인 서비스인데, 이를 발전 시키면 검색 결과에 대한 각각의 조회 통계와 같은 정보를 제공할 수 있다.
2. 검색엔진이 질문에 대한 답을 찾아 주면 좋겠지만, 아직은 그렇게 똑똑하지는 못할 것이다. 최소한 답을 찾기 위한 패싯, 시각화 등의 도구를 보다 풍부하게 제공할 것이다. 검색엔진이 라는 개념에서 라는 보다 능동적인 개념으로 이동하면서 검색의 분석 결과를 풍부하게 같이 제공할 것이다.
3. 시맨틱 웹이 적용된 상태가 되면 여러 사이트에 글을 올린 내용을 어느 한 사이트에서 모두 저자 별로 통합 검색 및 조회가 가능할 수 있겠지만, 올해에는 역시 너무 이른 뉴스일 것이다. 그러나 최소한 시맨틱 웹에 기반한 구조화된 태그 생성이 가능한 인터페이스와 검색 결과를 제공하여, RDF와 같은 낮은 수준의 시맨틱 웹이 점차 자리를 잡기 시작할 것이다.

◆ 검색 기술의 경쟁과 협력

위와 같은 예상이 보다 가속화 되기 위해서는 기술의 발전이 필요하다. 현재의 검색 발전 단계를 뛰어 넘기 위해 여러 기술이 경쟁을 하기도 하고 협력을 하기도 하는데, 사용자 인터페이스, 텍스트 마이닝, 시맨틱 웹 3가지 기술이 같이 발전해가야 하지 않을까 한다. 이 3가지가 그냥 독자적인 발전을 하기 보다는 다음과 같은 순차적 패러다임으로 협력적 발전을 하는 것이 필요하고 또 그런 방향으로 가고 있다고 본다.

1단계: 시맨틱 웹 표준의 발전과 보급
지식을 어떻게 표현하고 저장하고 연결할 것인지에 대해 표준을 제공한다.(RDF, OWL 등) 기존에 XML이나 HTML로 데이터를 표현하고 저장하는 것 만큼 RDF, OWL로 저장하고 표현하는 것이 쉽고 보편화 될 것이다.

2단계: 구조화 태그 생성 인터페이스
이는 단순한 사용자 화면을 의미하는 것이 아니라 사용자의 태깅과 참여를 유도하는 인터페이스 기술을 의미하며, 기존의 클라우드 태깅보다 진화한 구조화 태깅(Structured Tagging)을 의미한다. 이런 구조화 태깅을 위해서는 <1단계>에서 정의되고 보급되는 온톨로지와 같은 시맨틱 웹의 요소가 사용되어야 한다.

3단계: 구조화 태그를 활용한 텍스트 마이닝의 진화
보통 텍스트 마이닝을 시맨틱 웹과 경쟁기술로 보거나 사람의 노력 없이 자동으로 메타데이터를 생성하는 기술로 이해하고 있는데, 이는 사실이 아니다. 왜냐면 좋은 텍스트 마이닝의 품질을 얻기 위해서는 미리 사람이 태깅을 한 학습 데이터와 같은 자료를 이용하여 통계를 뽑고, 이를 통해 모델을 만드는 시스템이 텍스트 마이닝이기 때문이다. 따라서 온톨로지와 같은 구조화된 태그 체계가 있고, 이에 해당하는 문서가 많이 태깅되어 있다면 그야말로 텍스트 마이닝 기술에 있어서는 최고의 환경이 제공되는 셈이다. 즉 시맨틱 웹 표준의 보급 -> 사용자 인터페이스의 발전은 곧 텍스트 마이닝의 기술과 품질을 매우 높이는 계기가 될 것이다.

이렇게 시맨틱 웹 표준의 보급 -> 사용자 인터페이스의 발전 -> 텍스트 마이닝의 기술과 품질 향상으로 영향을 주기도 하지만, 발전된 텍스트 마이닝의 기술과 품질은 기존의 HTML, XML 위주의 인터넷 환경을 자동으로 RDF, OWL 로 바꾸게 하는 도구가 되어 다시 선순환을 가속화 시킬 수 있다. 또한 문서에서 메타데이터를 잘 추출하는 텍스트 마이닝 기술을 이용하면 사용자가 태깅을 할 때 추천어 등을 잘 제시하여 시맨틱 웹 표준에 맞춘 품질 높은 웹 문서 생성이 쉬워지게 된다. 그리고 궁극적으로는 이러한 기술의 상호 영향의 결과로 우리는 인터넷과 기업 내부의 정보에 대해 잘 조직화 되고 연결된 상태에서 보다 편리하고 정확하게 검색을 할 수 있게 될 것이다.

◆ 현실과 비전에 대하여
여태까지 검색의 발전 방향에 대해 여러 얘기를 많이 했는데, 마지막으로 미래에 대한 비전과 실제 가능성을 분리해서 볼 필요가 있다고 본다. 예를 들어 개인화는 많은 사람들이 원하고 있고 미래에 꼭 실현되어야 할 기능과 기술로 꼽고 있지만, 실제 구현에는 너무나 많은 어려움과 괴리가 있다. 개인화는 개인별 맞춤형 검색 결과를 제시한다는 목표를 가지고 있는데, 개인별로 어떤 특성을 가지고 있는지를 알아낸다고 하더라고 개인 스스로 계속 희망과 의도가 변하기 때문이다. 예를 들어 아마존에서 과거에 산 도서를 기준으로 관련 신규 도서를 추천한다고 하더라도, 그 순간 개인은 자신이 볼 책이 아닌 친구에게 줄 선물용 책을 고르는 중일 수도 있고, 그 분야에 대해서는 더 이상 흥미가 떨어져서 관심이 없는 상태일 수 있을 것이다. 실제 내 경험으로도 아마존의 추천 도서를 선택하여 구매를 한 적은 한번도 없으나, 내가 사려고 하는 책에 대해 다른 사람이 같이 산 책에 대해 정보를 주었을 때는 이를 이용하여 1권을 사려다가 2권을 산 적은 있다. 여기서 개인별 맞춤 정보를 준다는 목표를 달성하는 것은 어렵지만, 다른 사람들이 어떤 경향과 관심을 갖고 있는지(다른 말로 하면 Database of Intension이라고 할 수도 있을 것이다)를 제시하겠다는 목표는 구현 가능할 뿐만 아니라 실제 사용자에게 만족을 준다고 평가할 수 있다. 결론적으로 올해 검색도 구현이 가능하면서 실제 사용자에게 만족을 주는 독특한 기능 중심으로 발전해 나갈 것이다.

------


페이스북       방명록      수정 2012-01-20 / 등록 2011-01-11 / 조회 : 20980 (870)



우리의 건강을 해치는 불량지식이 없는 아름다운 세상을 꿈꾸며 ...  2009.12  최낙언