네이트 시멘틱 검색은 사오정 검색

네이트가 시멘틱검색을 발표했습니다. 신문기사 제목을 보고 아직 이론으로나 이야기 되고있는 '시맨틱웹' 을 넘어서서 '시맨틱 검색'이 나왔다니 놀랄 수 밖에 없었습니다.

시맨틱 검색을 이야기하기 앞서 우선 간단하게나마 시맨틱웹에 대한 개념을 먼저 이야기 한다면, 시맨틱웹은 컴퓨터가 정보의 의미를 이해하고 이를 개념으로 정의하여 개념과 개념과의 관계를 설정한다는 것으로 사람의 판단이 개입되지 않고 자동화된 에이전트에 의해 검색이나 새로운 지식의 생성이 가능한 웹이라는 의미입니다.

시맨틱 웹이란 한마디로 이야기 하면 컴퓨터가 사람처럼 판단하는 판단력을 가지고 있음을 전제로 성립됩니다. 시맨틱 검색을 이 개념에 비추어 본다면 검색엔진이 판단하여 검색결과의 중요성을 결정하고 검색결과에 대한 순위를 매긴 후 중요한 검색결과가 먼저 오게 조정 할 수 있음을 의미합니다.

간단한 예를 들어 보겠습니다.

검색창에 '해리포터' 라는 키워드를 쳤을 때 (스폰서링크를 제외하고) 가장 먼저 나와야 할 검색결과는 무엇일까요?  해리포터 영화? 해리포터 책? 해리포터 게임? 영화라면 1편인 마법사의 돌? 7편인 혼혈왕자? 현재 네이버나 다음음 검색결과에는 영화 해리포터 7편의 스페셜페이지가 가장 먼저 나오고있습니다. 왜냐하면 지난 여름 이 영화가 개봉 되었기 때문입니다. 만일 해리포터 책 8권이 나 프리퀄 같은 책이 나온다면 그 시점을 전후해서는 그 책의 정보가 가장 먼저 나올 것입니다.

이렇듯 같은 키워드에 대응하는 검색결과라도 시점이나 화제성, 트랜드에 따라 검색결과의 순위는 바뀌어야 하는데 네이버나 다음 검색에서는 이를 사람이 판단하고 순위를 수동으로 조정합니다. 그래서 통합검색을 편집검색이라고 이야기 합니다. 해리포터 책이 나와 화제가 될 때는 책이 상단으로, 영화가 화제일때는 영화를 상단으로 조정합니다.

진정한 시맨틱 검색이 구현된다면 이러한 작업을 사람이 아니라 컴퓨터가 인공지능을 통해 판단하고 조정한다는 의미입니다. 몇가지의 규칙을 만들어서 컴퓨터가 일부의 작업을 할 수 있도록 할 수는 있겠지만 모든 키워드에 대응해서 규칙을 만들 수는 없으며  만든다고 해도 그 정확성 및 신뢰성이 떨어지기에 그래서 네이버가 돈이 많이 들어도 사람들을 이용해서 검색결과를 편집하는 것 입니다.

마찬가지로 동명이인이나 동음이의어, 이음동의어, 자연어에 대한 처리 등 컴퓨터가 정보의 의미를 이해하기에는 아직 과학기술이 한참 못미치고 있습니다. 네이트 시맨틱 검색에 '잭슨' 이라고 쳤을 때 네이트는 마이클 잭슨에 대한 검색 결과를 주로 보여주는데 과연 사용자들이 마이클 잭슨만 검색하냐 하면 그것은 아니라는 것입니다. 영화감독인 피터잭슨이나 영화배우 사무엘 L 잭슨, 동생인 재닛 잭슨 일 수 도 있고 또 다른 가수인 잭슨 브라운일수도 있고 미술가인 잭슨 폴록 일수도 있습니다.

네이트의 시맨틱 검색에서 미국의 포크가수인 '잭슨 브라운'을 검색한 결과입니다. 잭슨 브라운과 금호생명은 어떤 관계가 있길래 잭슨브라운의 활약이라는 검색결과에 금호생명의 승리소식만 검색결과에 나올까요? 시맨틱 검색이 진정으로 구현되었다면 검색엔진은 '잭슨 브라운'이라는 단어가 '미국의 포크가수' 라는 의미로서 인식한다는 것이고 기사내에 잭슨 브라운이라는 단어는 금호생명의 '잭슨'과 '브라운' 이라는 선수이름이라고 판단 해야하므로 이 검색 결과에서 제외 시켰어야 합니다.

네이트의 시맨틱 검색은 시맨틱 검색이라기 보다는 시소러스를 이용하여 웹검색 결과를 보여주는 검색인것 같습니다. 시소러스는 원래부터 도서검색에 많이 쓰이던 개념이며 시맨틱 검색과는 상관이 없습니다. 그리고 이런 설정이 되어있는 키워드 역시 기존의 스페셜 페이지를 중심으로 작성되어 있습니다. 즉 연예인이나 영화 등 통합검색 상단에 오는 스폐셜페이지에서 제한적으로 보여주던 내용을 '시멘틱'이라는 이름으로  UI를 좀 바꾸어 웹검색결과를 뿌려주고 있습니다.

연예인이 아닌 '동네북'이라는 키워드의 검색결과입니다. 연예인키워드 처럼 사람이 미리 편집한 내용이 없을 경우 심하게 사오정 검색 결과를 보여주고 있습니다. 그냥 웹에서 '동네북' 이라는 키워드와 좌측의 단어들이 같이 포함된 문장을 뽑아서 검색결과로 뿌리고 있습니다. UI를 제외하고 이전에 있던 웹 검색과 다를 바 없습니다. 아마도 스페셜 페이지 관련 키워드의 경우 시소러스 작성 후 수동으로 별도 관리하고 그외 키워드는 위의 검색결과와 같이 '모양' 과 '동네북' 이라는 키워드가 포함된 문서를 찾고 두 키워드를 같이 노출하는 식 인것 같습니다. 네이트의 시맨틱 검색이 어떤 검색기술을 사용하는지 정확히는 모릅니다만 검색결과로 봐서 절대 시맨틱 검색은 아닙니다.

네이트가 네이버나 다음 검색에 밀려 뭔가 새로운 돌파구를 찾기 위해 노력하고 있다는 사실은 인정할 만합니다. 다만 이런식으로 '시맨틱 검색' 이 아닌 것을 '시맨틱 검색' 이라 부르면서까지 하는 것은 아닌 것 같습니다. 국산차에 BMW 마크를 단다고 해서 성능까지 BMW가 되는 것은 아니니까요.



 좌측의 버튼을 누르시면 한RSS를 통해 더욱 편리하게 '니오의 nweb'을 구독하실 수 있습니다.

by 니오 | 2009/10/07 16:39 | | 트랙백(3) | 핑백(1) | 덧글(15)
트랙백 주소 : http://searching.egloos.com/tb/2443646
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Tracked from friedpotato'.. at 2009/10/07 22:49

제목 : 지하생활자의 생각
네이트 시맨틱 검색은 사오정 검색. 그 애시당초 시맨틱은 문서가 잘 짜여져있는게 전제된거 아닌감 흠...more

Tracked from delos island at 2009/11/16 13:28

제목 : 네이트 시멘틱, 검색에 대한 새로운 생각을 경험하다
네이트가 새로운 검색서비스 시멘틱의 TV 광고와 동시에 검색서비스를 실시하고 있다. 네이트 메인화면 검색창 상단에 있는 시멘틱 검색 체험하기를 클릭하면 이용할 수 있다. 시멘틱 주제 영역 테스트겸 광고에서처럼 체게바라로 검색을 해봤다. 시멘틱 검색결과에 체게바라의 성장배경, 전공, 학력, 사망장소 등 체게바라와 관련된 전반적인 사항에 대해 다양한 주제 분류를 자동으로 추출, 정리해서 보여주는 방식인데 해당 주제를 클릭하면 별도의 입력항목 없이도......more

Tracked from linked data at 2009/11/26 15:12

제목 : 네이트가 왜 시맨틱 검색이야? 웹은 어디 있는데??
네이트?? 시맨틱 검색?? 시맨틱 검색이 가고자 하는 방향은 무엇일까? 시맨틱 검색을 얘기할때 왜 시맨틱웹이 항상 거론될까? 시맨틱웹은 거론하면서 왜...거기에 시맨틱웹 철학이나 사상은 없을까?? 시맨틱웹에서의 시맨틱 검색은 네이트가 하고 있는 검색과는 사뭇 거리가 멀다. 물론 난 "니오"님의 생각과도 좀 거리가 있다고 본다. 시맨틱웹 에이전트가 활동하려면 가장 먼저 에이전트가 처리할 수 있는 대상 데이터가 필요하다. 그것이 RDF......more

Linked at Chamber of Lucid.. at 2009/11/04 14:40

... 좋은 글들이 있어서 담아놓는다. http://searching.egloos.com/2443646 http://blog.creation.net/403 ... more

Commented by 몽몽이 at 2009/10/07 18:24
아마 단어를 2개 이상 넣어서 그럴 겁니다.
물론 그 경우에도 제대로 처리가 돼야 하겠지만...
큐로보의 경우에도 단어 하나만 넣을때는 제법 그럴싸한데,
2개 이상 넣으면 그 연언의 의미를 파악하지 못하더군요.
Commented by 다물 at 2009/10/07 20:45
네이트 뉴스는 볼만하게 개편된 것 같은데 검색은 아직 멀었나 보군요. 검색은 국내용-네이버, 외국용-구글... 그 외에는 삽질하는게 많아서 사용을 안하게 되네요.
Commented at 2009/10/12 10:29
비공개 덧글입니다.
Commented by 별이하나 at 2009/10/23 08:54
그냥 새로운 시도로써 귀엽게(?) 봐줄수도 있을거 같은데..;;
Commented by sikunix at 2009/11/04 15:32
그나마 지금 나온것중에 잘 됐다 판단되는데요. 더 좋은 사이트 있음 추천좀 해줘보세요.
Commented by ysrh at 2009/11/07 04:00
1 지금 나온 것중 최고의 검색엔진은 구글 아닌가요?
Commented by 이름안알릴래요 at 2009/11/12 20:36
"'잭슨 브라운'이라는 단어가 '미국의 포크가수' 라는 의미로서 인식한다는 것이고 기사내에 잭슨 브라운이라는 단어는 금호생명의 '잭슨'과 '브라운' 이라는 선수이름이라고 판단 해야하므로 이 검색 결과에서 제외 시켰어야 합니다."
라고 하셨는데요,

앞서 쓰신 "영화감독인 피터잭슨이나 영화배우 사무엘 L 잭슨, 동생인 재닛 잭슨 일 수 도 있고 또 다른 가수인 잭슨 브라운일수도 있고 미술가인 잭슨 폴록 일수도 있습니다."
라는 말씀과 부합되지 않아 보입니다.

자세히 말씀드리면, 후자의 관점에서,
"금호생명의 '잭슨'과 '브라운' 이라는 선수"를 찾으시는 분이 계시고
'미국의 포크가수인 잭슨 브라운'을 찾으시는 분도 계심을 알 수 있었고,

따라서, 전자의
"금호생명의 '잭슨'과 '브라운' 이라는 선수이름이라고 판단 해야하므로 이 검색 결과에서 제외 시켰어야 합니다."
라는 주장은 글의 통일성을 해칩니다.

결론적으로, 네이트의 시맨틱 검색에서 '잭슨 브라운'을 검색할 경우에, 해당 상황은, 둘 중에 무엇을 찾는 지 모르는 상황에 두 이용자의 권리를 모두 존중하기 위함인 당연한 결과입니다. 구태여 '-해야하므로'와 '-어야 합니다'라고 강한 의무를 표방하신 이유가 있습니까?
애초에 좌측의 단어들 중 '활약'을 먼저 고르셨지만, 바로 위에는 '인물정의'가 있습니다. 현 시점에 나타나는 문제로서 위에 제시하신 것들은 머지않아 해결될 전망이지 아니하겠습니까? 인물을 검색할 경우에, 먼저 '인물정의'를 통하여 범위를 좁힌 후 '활약'을 이어 고르면 되겠다고 쉽게 생각해낼 수 있습니다.

한편, 마찬가지로(위와 같은 관점에서),
"잭슨 브라운과 금호생명은 어떤 관계가 있길래 잭슨브라운의 활약이라는 검색결과에 금호생명의 승리소식만 검색결과에 나올까요?"
라는 설의도 역시 오히려 글쓴이에 대한 신뢰를 떨어뜨립니다. 게다가, 검색결과에 금호생명의 승리소식만 나오지도 않아 보입니다. 혹은, 그 사진자료가 불충분하겠습니다.

공개한 지 얼마 되지도 않은 현 시점에 다수의 오류를 남발하실 것을 감수하시고도 위 글을 올리신 연유를 생각해봤습니다.
"신문기사 제목을 보고 아직 이론으로나 이야기 되고있는 '시맨틱웹' 을 넘어서서 '시맨틱 검색'이 나왔다니 놀랄 수 밖에 없었습니다."
라는 말씀에서 찾아냈습니다. 직후에는 시맨틱웹에 대한 개념을 소개하시며, 정의하신 것을 바탕으로 진정한 시맨틱 검색의 구현을 논지로 전개하셨습니다.
그러나, 앞서 관점의 다양성에 관하여 말씀드렸 듯이, 오히려 nate 측에서는 시맨틱웹과는 무관하게 그저 영어단어로서 semantic을 내세웠을 수 있습니다. 구태여 연결지으신 것은 시맨틱웹에 상당한 관심을 가지셨기 때문입니다. 혹 시맨틱웹과 관계가 있을지라도, 글쓴이의 생각과 동일한 관계가 아니거나 그러한 가능성과는 무관하게, 좀 앞서 나가셨습니다. 선입견이었으며, 편견이었으며, 나대셨으며, 까부셨습니다. 겸손하지 못하고, 자랑하셨으며, 나아가 자만하실 수 있습니다. 덧글은 남겨드리는 이유입니다.
그렇지 않다고 하더라도, 덧붙여, 현 시기가 진정한 시맨틱 검색을 논할 시기입니까? 초창기로서, 오히려, 위와 같은 신선한 지식을 가진 좋은 조언자의 입장으로서 참여의식을 가지고 아쉬운 점을 건의하셔야 합니다. 전반적으로 글의 방향 자체가 틀렸습니다. 예로부터 시기상조라 하시지 않으셨습니까? 모르시지 않으시잖습니까?

인터넷에 글을 올리신다고 예의는 버리셨습니까? 어리석습니다.
비평만 한 듯 하여도, 격려도 숨겨드립니다. 감사합니다.
Commented by 니오 at 2009/11/13 00:21
코난텍에서 1년이상 개발을 했고, 컴즈에서 4개월 가량 시소로스를 구축하느라 고생한 것은 알고 있습니다만 고생한 것과 이 검색이 '시멘틱 검색' 이라는 이름에 걸맞는 검색이냐는 별개의 사안이라고 생각합니다. 이 포스트 내용을 간추려서 한마디로 정리한다면 ' 네이트의 시멘틱 검색은 시멘틱 하지 않다'라 할 수 있습니다.

저는 일반 사용자로서 제가 알고 있던 시멘틱의 개념과는 너무 상이한 네이트 검색을 '시멘틱 검색'이라 이야기 하는 것은 아니라는 생각을 이야기를 하기 위해 예를 든것 뿐 입니다.

기능적인 면에서의 아쉬운 점을 건의하는 것은 제가 베타테스터도 아니고..nate의 부탁을 받은 적도 없습니다.(이에 대한 의무는 없다고 생각합니다.)

그리고 댓글다신 분이 네이트검색이나 또는 코난텍 그외 이 프로젝트와 관련되신 분이라 추측되는데, 저는 일반 사용자로서 충분히 할 만한 비판을 썻다고 생각합니다.

네이트에서 새롭게 검색서비스를 만들어 내놓기만 하면 일반사용자들은 무조건 좋아해 주어야 하는 것 입니까?

이 검색이 시멘틱이라고 저를 설득하는 것 보다는 댓글의 설명 없이도 시멘틱 검색이라고 누구나 인정 할 만큼 잘 만드는데 더 노력과 시간을 투자하시기 바랍니다.

마지막으로 제게 예의를 논하시기에 익명으로 쓰신 본인의 댓글이 예의가 있는 댓글인지 한번 쯤 다시 보셨으면 합니다.
Commented by exedra at 2009/11/26 14:51
익명 이전에 나대셨다, 까부셨다라는 표현은 단순히 높음을 위해 '셨다'를 붙이는 것만으로 예의를 차렸다고 보기 힘드네요.
오히려 그 어울리지 않는 '셨다'라는 어미때문에 더 빈정거리는 느낌이 강합니다. 절대 예의를 차린 글은 아닌 듯합니다.
Commented by 이름안알릴래요 at 2009/11/20 00:18
보시는 분들이 어떻게 생각하실지 전 궁금합니다. 혹 제 논지를 똑바로 반박하셨다고 생각하십니까? 동문 서답이시네요.
일례로, 니오님께서는 본명 사용중이신 지, 익명으로 쓴 제 덧글에 예의가 없다고까지하시잖습니까?
Commented by 니오 at 2009/11/20 15:52
소설가들이 필명을 사용하듯이..니오는 온라인에서의 일종의 제 필명이고, 온라인에서의 제 아이덴티티입니다. 제가 주민증에 나왔는 실명을 안쓰고 필명을 사용한다해서 그걸 익명이라고 이야기 하는 것은 아이덴티티가 뭔지 잘 모르신다고 밖에 생각할 수가 없네요. 제 블로그 안에는 제게 연락할 수 있는 컨택포인트도 있고, 실명을 찾으시려면 얼마든지 실명을 찾을 수 있습니다. 그리고 제 블로그에 쓴 글 자체가 제 생각과 사상을 나타냅니다. 그보다 더 아이덴티티가 분명 할 수 없습니다.

님에게 익명이라 이야기 한것은 말 그대로 익명이기 때문입니다. 님의 블로그나 트위터 링크만 되어있더라도 익명이라 이야기 하지 않았을 것입니다. 님의 '이름안알릴래요' 라고 쓴것 말고 님이 무엇을 하는사람인지, 님의 컨택포인트가 무엇인지 알 수 없는.. 그것이 익명이라 이야기 한 것입니다.

그리고 제 블로그의 기본정책은 남의 논지를 반박하는것이 아닙니다. 님의 논지를 반박할 생각도 없으며 반박할 필요도 없습니다. 님이 가지신 생각은 님의 블로그에서 주장하시기 바랍니다.
Commented by exedra at 2009/11/26 14:52
위에도 밝혔지만, 익명이 예의 없음으로 여겨지지는 않습니다. 교묘하게 예의 없음을 익명에 맞춰 글쓴이를 공격하시는군요. 괜히 논지를 흐리지 마셨으면 하네요.
Commented by 다른사람 at 2009/11/23 05:39
뭐... 아직 롱테일 쿼리들에 대해서도 잘 나오기는 어려운 거겠죠. 그래도 충분히 훌륭하다고 생각합니다. :) 항상 완벽해야만 그 이름을 붙일 수 있는 자격이 주어지는 것은 아니니까요. '맞춤법 검사' 같은 기능도 그러하고, 자동응답시스템, 미사일 디펜스, 네비게이션 등 길찾기 서비스 모두 마찬가지 아닐까요.
Commented by 익명 at 2009/11/25 12:47
익명이라기 보다는 뭔가 뜨끔하신 것 같군요.. 안타깝네요..
Commented by 네이트 at 2009/11/26 13:03
네이트 검색, 너무 그럴 듯 하게 포장만 한 건 아닌가 싶군요... ㅉ

:         :

:

비공개 덧글