그리고 시맨틱스의 글로벌 경쟁업체라고 하는 Hakia에서는 처음으로 자신의 솔루션 중 일부를 라이센스를 통해서 RiverGlass라는 웹 정보 분석솔루션 업체에 공급하였다.
새로운 서비스를 론칭하는 것도 의미 있는 일이지만, 비즈니스가 일어났다는 것이 훨씬 더 중요한 것 같다.
아무튼 이제 본격적으로 Semantic Search의 시대로 접어든 것인가? 하는 의문이 드는데, 이번 비즈니스에 대해서 미국에서도 이슈가 되었던 것 같다..
구글의 경쟁상대인지? 아니면 완전히 새로운 패러다임의 검색엔진인지? 등등의 많은 얘기들이 오가고 있다고 한다. 구글의 독주가 몇 년째 계속되다 보니 경쟁자의 출현에 다들 신경을 곤두세우고 있는 것 같다.
Hakia의 CEO인 Riza C Berkan 박사가 Hakia 블로그에 직접 올린 글중에서 일부이다.
However, we need to make one small correction to misunderstandings that appear here and there: Are we a Google killer? Are we competing with Google-esque search engines? Are we a specific application search engine?
hakia is a general purpose “semantic” search engine whereas Google-esque are general purpose “statistical” search engines. As a semantic search engine, hakia is being developed to fulfill different needs of a different type of on-line searchers. These differences refer to potential benefits (yet not fully realized) within the boundaries of “general purpose” utility. If it sounds confusing I would’t blame you.
Let me throw an example. If the user enters the query “benefits of aspirin”, Google-esque search engines will rank results by popular opinion (via link referrals). Popular opions are formed by millions of ordinary people rather than by a small group of the designers of the drug at Bayer. Therefore, there is no alternative view available on the Web today, alternative being a different criteria, different perspective, perhaps the perspective of credibility, freshness, applicability, feasibility, depth, and so forth.
If you were going to take aspirin and wondering about the benefits of it, versus you may have a weak heart, versus you might be a genetics researcher. Again, depending on who you are, the perspective of ranking search results can vary. Using Google-esque search engines, we are always seeing one fixed perspective. hakia is about to enrich this experience.
For the reasons I am trying to explain, hakia’s competitive position is undefined, and hakia’s promise is not built on competing for the same turf with others. Note that other semantic search start-ups are saying similar things, thus there is an independently formed concensus about it: Semantic technologies will bring out something new about the Web that is hard to place in any competitive scale.
[원문 : http://blog.hakia.com/?p=258 ]
Semantic Search가 이번 시맨틱스의 Qrobo 공개에서도 주장한 바이지만, 핵심 중 하나인 온톨로지 등을 구성할 때 완전 자동화를 한다는 것은 거의 불가능한 일이다.2
그래서, 구글과 같은 Statistical 검색처럼 도메인이 관계없이 비슷한 수준의 Scalability를 보여주는 것은 거의 불가능하기에 특정 도메인에 한정되게 제공하는 식으로 포지셔닝을 가져가게 된다.
그런데, 이번에 시맨틱스와 Hakia가 서로 경쟁자이면서도 완전히 다른 모습을 보여주고 있어서 흥미롭다.
Hakia는 자신의 솔루션을 미국에서 유행하는 API형태로 제공하면서 모든 웹의 인터랙션의 인프라가 되겠다는 생각으로 접근하고 있고(검색이 아닌 그리고 나쁘지 않아 보인다.) 시맨틱스는 정공법으로 Semantic Search로 기존 검색 패러다임을 바꾸려고 하고 있다.
앞으로 검색의 관심사는 검색 대상인 '데이터'에서 검색 사용자인 '사람'으로 옮겨와야 하지 않을까? user의 Intention, Needs에 대한 답을 해주어야 하는 것 아닐까?
과연 어떤 길이 정답일까?
비즈니스에서 정답이란 것은 존재하지 않지만
'정보검색' 카테고리의 다른 글
| 야후의 역습, 야후 원서치 (0) | 2008/03/26 |
|---|---|
| Semantic Searchengine의 시대가 오는가? (0) | 2008/03/20 |
| 검색에 목숨을 걸어야 하는 이유 (2) | 2008/03/10 |
| 왜 검색옵션이 보이지 않는거야? (6) | 2008/03/03 |
|
시맨틱스에서 현재 개발/테스트 중인 Qrobo... 자사 홈페이지에 소개되어 있는 내용을 정리하자면 다음과 같다. 디렉토리 검색엔진은 예전부터 사용해 온 도서 분류학을 모태로 하여 각 홈페이지의 성격을 정하여 사용자의 접근을 좁혀 나가 결국에는 자신이 원하고자 하는 자료를 획득할 수 있었으나, 이젠 하나의 사이트가 하나의 성격을 가지는 것이 아니라, 여러가지 성격을 내포하고 있어 더 이상 구조화된 분류 체계로 표현하기 힘들다. 또한, 200억 페이지.. |
지금까지의 검색은 사용자의 질의어가 존재하는 문서를 랭킹 알고리즘에 따라 결과를 정렬하여 제공하는 형태로 서비스가 제공되고 있다. 인터넷 초창기에는 웹 문서의 숫자가 많지 않아서 문서에 존재하는 질의어에 해당하는 키워드의 카운트 정도만으로도 매우 유용한 결과가 나왔다.
웹 문서의 폭발적인 증가로 인해, 다양한 기법을 통해서 검색결과를 최적화하지만(구글의 페이지랭크처럼) 기본적으로는 질의어에 대한 string matching이 기본이었다. 따라서 '디카의 사진을 현상을 하려면'이라는 의도를 가지고 검색하려면, 대부분의 사용자들은 '사진 현상'이라고 질의어를 넣고 검색결과 다시 브라우징해야 하는 악순환을 겪게 된다.
여러 가지 이유를 댈 수 있지만, 무엇보다 사용자들의 의도가 표현된 '문장'의 "의미"를 제대로 이해하지 못하는 검색엔진(단순히 string matching)으로는 한계가 분명히 존재한다.
의미
이를 개선하기 위해서 결국 사용자의 의도가 표현된 문장을 질의어로 입력받으면, 우선 그 "의미"를 해석하고 그 "의미"에 해당하는 문서를 색인에서 찾아서 해당 문서를 콜렉션에서 가져와서 결과를 보여주면 된다.
이를 위해서는 기존의 방식(string matching)과는 전혀 다른(?) 방식인 '의미'를 '분석'해야 하는데, 이를 위해 많은 연구자들이 선택한 방법이 '온톨로지'를 이용한 방식이다. 뭐 이미 온톨로지 기반 검색이라는 든지, 의미 컴퓨팅이라든지, semantic search를 말하는 선도적이고 혁신적인 기업들도 있다.
온톨로지(Ontology)
온톨로지는 개념(concept)이 있고 개념의 속성(predecate)이 있고 개념과 속성의 관계가 있고 이를 통한 추론 규칙(rules)이 있는특정분야에 사용하는 용어들의 집합이다. 사실 '온톨로지'는 정의만 놓고 보면, 시소러스와 유사하다. 시소러스 역시, 단어들이 존재하고 단어들간의 관계가 NT니 RT니 하면서 존재하는데..,
( 쉽게 설명을 못하는 것보니, 나도 잘 모르는 것 같다. T.T)
예를 들어보면, 자동차, 트럭, 엔진이라는 용어가 존재할 때,
온톨로지는
자동차 -(includeSpecific)-트럭
자동차-(hasComponent)-엔진
시소러스는
자동차-(NarrowTerm)-트럭
자동차-(NarrowTerm)-엔진
식으로 표현된다.(적절하지 않은 예제일 수도 있음 ^^)
어떤 문서 A에 " 999 트럭의 엔진결함으로 대규모 리콜이 진행될 것이다."라는 문장이 있다면, 질의어로 '자동차 리콜'이라고 입력했을 때, 온톨로지 기반의 경우 문서 A가 결과의 상위에 랭크되어 있을 것이고, 시소러스 및 기존 방식의 경우 '리콜'이라는 텀 매칭으로는 상위에 랭크되기 어려울 것이다.
(음... 반드시 그럴것이다라고 말하기는 어렵다)
이 예제를 든것은 온톨로지의 경우 개념과 속성의 관계를 표현하는 것이 다양하여, 아주 정교한 의미 분석이 가능해 지고, 이를 통해서 검색결과 성능이 우수해질 수 있다.
차세대 검색, 의미 검색
그러면 앞으로 대세는 온톨로지 기반의 검색엔진이라고 생각할 수 있는데, 정확하게 말하자면, 의미검색이 차세대 검색엔진의 주요한 특징이나 기능이 될 수 있을 것이다. 하지만, 여기에는 큰 장애물이 존재하는 온톨로지가 Real World 모두 매핑하기에는 현재로서는 불가능에 가깝다.
온톨로지가 원래 특정 Domain에 한정된 용어의 모음이고, Real World는 모델링하기가 매우 어렵고, 실제 개념과 속성을 매핑하기 위해서는 엄청난 비용이 소모될 것으로 보여진다. 사실 온톨로지를 기반으로 한 검색은 시멘틱 웹의 개념과도 잇닿아 있기에 여러가지 기술적인 비용적인 개선이 필요하다.
하지만 무엇보다, 단순한 string matching으로는 더 이상 사용자들의 기대를 채워 줄 수 없기에, 앞으로 의미검색으로 많은 시도와 연구가 이루어질 것으로 예상된다.
'정보검색' 카테고리의 다른 글
| 개인의 검색역사를 남기는 이유? (0) | 2007/04/21 |
|---|---|
| 의미검색 (0) | 2007/04/17 |
| 음성인식 검색기술! (0) | 2007/03/20 |
| 차세대 검색엔진의 특징 (0) | 2007/03/12 |


