2008/09/26 23:54
if (IR or NLP)
검색엔진 품질과 관련된 작업을 하다보면 기준이나 정책을 정하기 위해 구글에서 검색을 해 보는 경우가 많이 있습니다.
궁리 궁리 하다가
"그렇다면 도대체 구글에서는 어떻게 하고 있을까?"
또는
"아 도저히 방법이 없을 것 같아. 구글에선 되는거야?"
이런 식입니다. 그러다가 최근에 발견한 구글에서(도) 쫌 이상한 것들입니다. 캡쳐한 이미지가 글자가 잘 안보이는데 클릭하시면 선명하게 볼 수 있습니다.
첫번째 입니다. 검색어에는 "12월 9일" 인데 "9월 12일"이 포함된 문서가 검색되었습니다.
"새우깡소년~~~~" 이렇게 검색어를 이어 붙인건 제가 말하고자하는 결과를 위로 올릴라고 한 것이니 너무 신경쓸 필요는 없습니다. 다른 예의 검색어들도 마찬가지 입니다.

다음으로는 토씨 하일라이팅 문제입니다. 이런^^;; '우리의', '소원은'... 입력하지도 않은 단어들이 하일라이팅이 되어있습니다. 너무 쪼잔한가요? 그렇지 않습니다. 저런 문제를 해결하느라고 마누라 생일날 야근을 할 수도 있습니다.

위의 것은 그래도 왜 그런지 아는 사람은 압니다. '우리의'가 하일라이팅 된게 아니라 '우리', '의' 가 각자 하일라이팅 된 것이지요. 그런데 다음은 도통 왜 이런지 모르겠습니다. '너와'가 하일라이팅이 되었는데. '와'라는 조사는 검색어에 전혀 없는 단어입니다.
아마, '너무 잘하려다가' 이상해져 버린게 아닐까요?

그리고, 마지막인데요. 구글이 못찾는 문서는 없다고 많이들 생각하지만, 모든 검색엔진에는 '사각지대'가 분명히 존재합니다. 구글도 배신합니다. 잘 보십시오.
첫번째 검색에서 두개의 문서가 결과로 나왔습니다. 두번째 문서 제목에 동그라미 쳐 놓은 '베르테론의'라는 단어만 검색어에 추가해 보겠습니다.
검색결과가 없습니다. 구글이 가지고 있는 문서인데도 못찾고 있습니다.
정말 구글이 신은 아니죠?
궁리 궁리 하다가
"그렇다면 도대체 구글에서는 어떻게 하고 있을까?"
또는
"아 도저히 방법이 없을 것 같아. 구글에선 되는거야?"
이런 식입니다. 그러다가 최근에 발견한 구글에서(도) 쫌 이상한 것들입니다. 캡쳐한 이미지가 글자가 잘 안보이는데 클릭하시면 선명하게 볼 수 있습니다.
첫번째 입니다. 검색어에는 "12월 9일" 인데 "9월 12일"이 포함된 문서가 검색되었습니다.
"새우깡소년~~~~" 이렇게 검색어를 이어 붙인건 제가 말하고자하는 결과를 위로 올릴라고 한 것이니 너무 신경쓸 필요는 없습니다. 다른 예의 검색어들도 마찬가지 입니다.
다음으로는 토씨 하일라이팅 문제입니다. 이런^^;; '우리의', '소원은'... 입력하지도 않은 단어들이 하일라이팅이 되어있습니다. 너무 쪼잔한가요? 그렇지 않습니다. 저런 문제를 해결하느라고 마누라 생일날 야근을 할 수도 있습니다.
위의 것은 그래도 왜 그런지 아는 사람은 압니다. '우리의'가 하일라이팅 된게 아니라 '우리', '의' 가 각자 하일라이팅 된 것이지요. 그런데 다음은 도통 왜 이런지 모르겠습니다. '너와'가 하일라이팅이 되었는데. '와'라는 조사는 검색어에 전혀 없는 단어입니다.
아마, '너무 잘하려다가' 이상해져 버린게 아닐까요?
그리고, 마지막인데요. 구글이 못찾는 문서는 없다고 많이들 생각하지만, 모든 검색엔진에는 '사각지대'가 분명히 존재합니다. 구글도 배신합니다. 잘 보십시오.
정말 구글이 신은 아니죠?


댓글을 달아 주세요
지금 다시 검색해보면 "디스이즈게임에서는 아이온의 베르테론 요새 부근에 등장하는" 로 검색해도 검색결과가 없다고 나오네요 ^^ 그리고 '생략된 결과를 보겠다고 하면 결과가 한 건만 나옵니다.
그리고 더 재미있는 것은 마지막 검색어로 지금 다시 해보세요 .. 나옵니다...
역시 구글은 신이죠 ^^