N-Gram 방식

1) 문서의 모든 어절들을 추출한다.

빈칸, 마침표, 쉼표, 따옴표 등을 구분자로 하여 모든 어절들을 추출한다.


2)불용어를 삭제한다.

불용어 리스트를 이용하여 색인어로서 무의미한 어절들을 삭제한다.


3) 나머지 어절에서 비색인분절들을 삭제한다.

비색인 분절은 단일 조사( -가, -이, -를, -으로, -부터), 복합조사(-으로부터, -에서부터), 어미, 접미사 등이 결합된 다양한 형태의 음절 들을 포함한다.


4) 나머지 색인 분절을 N-gram들로 분할하여 색인어로 설정한다.

N-Gram방법이란 인접한 N개의 음절을 말한다. 예를 들면 '잡학사전'에 대한 2-gram은 '잡학', '학사', '사전'이다.

5) 가중치를 설정한다.

의미 없는 N-gram의 생성으로 인해 질의에 부적합한 문서들이 검색될 가능성이 있으므로, 각각의 단어에 가중치를 부여한다.


덧붙여

색인이라는 것은 검색엔진에서 검색 대상이 되는 문서 SET에서 유의미한 키워드를 뽑아서 색인어로 정한 뒤에 출현빈도나 출현위치, 출현문서 정보등을 색인어에 담고 색인어별로 소팅하여 데이터 SET을 만드는 작업이다.

문서에서 어떤 것이 색인어이고 아니고를 구분하기 위해서 사용하는 대표적인 방법이 N-Gram방식이다.



 마루날의 雜學辭典(잡학사전)을 RSS리더로 편하게 구독해서 보세요~

TRACKBACK :: http://ithelink.net/trackback/111 관련글 쓰기

댓글을 달아 주세요

◀ Prev 1  ... 368 369 370 371 372 373 374 375 376  ... 440  Next ▶
BLOG main image
마루날의 雜學辭典(잡학사전)
소셜미디어, 웹 오피스, 클라우드 컴퓨팅, 소셜 서치, 모바일 에 관심 있음. 분석, 화내기 잘해요. 책읽기, 등산 좋아해요. 잠실, 올림픽공원 자주 가요. 모든 비린내 싫어해요. YO~
by 마루날

카테고리

분류 전체보기 (440)
e-Business (104)
Social Web (57)
eBook | office | Cloud (2)
Management (23)
독서일기 (127)
Startup (1)
모바일 (6)
정보검색 (101)
Etc. (19)

당신을 위해 준비한 모임

마루날's Blog is powered by Textcube. Designed by Qwer999. Supported by Tatter & Media.