2011/02/05 00:25 if (IR or NLP)
구글의 검색 랭킹 담당자인 Amit Singhal 은
"I’ve got no problem with a competitor developing an innovative algorithm. But copying is not innovation, in my book.”
이라고 말하며, 마이크로소프트의 Bing이 구글의 검색 결과를 배꼈다는 식으로 이야기를 했다.

참고 URL


구글의 주장은 Bing의 검색 결과가 구글의 검색 결과와 시차를 두고 비슷해 지는 것을 발견했다는 것이다. 구글은 이를 입증하기 위해서 실험을 진행하였는데, 그 방법은 이렇다.
100개의 가상의 쿼리를 만들고, 구글 검색 엔진이 그 쿼리와 전혀 관계가 없는 문서를 검색 결과로 출력하도록 만들었다. 한 예로, "hiybbprqag" 라는 존재하지도 않는 단어의 검색 결과로 그 단어가 나타나지도 않는 문서를 검색결과로 나오도록 꾸민 것이다.
그러고는 Internet Explorer 8에 Bing Toolbar를 설치하고 "구글 검색 엔진"에 그 가상의 쿼리를 입력하고, 구글의 검색 결과를 클릭했더니, 수주 후에 그 같은 검색 결과가 Bing의 검색 결과로 나오는게 딱 걸렸다는 스토리다.

얼핏 보면 Bing의 Cheating을 구글이 지혜롭게 잡아낸 것 처럼 보이지만, 뒤집어서 생각하면 Bing의 랭킹 알고리즘 중 하나를 간파한 구글이 어뷰징을 했다고도 볼 수 있다.

실제로 Bing은 구글의 주장을 부정하지는 않았다.
"Opt-in programs like the [Bing] toolbar help us with clickstream data, one of many input signals we and other search engines use to help rank sites."
구글 검색 결과를 클릭하는 클릭 스트림은 랭킹의 수많은 시그널 중 하나일 뿐이라는 것이다. 구글이 가상으로 만든 100개의 쿼리에는 아마 다른 시그널이 전혀 들어갈 여지가 없으므로, 구글의 검색 결과가 그대로 나온 것이라는 말이다. 진짜 쿼리에 대해서는 이런 클릭 스트림의 영향이 main이 아니라, 극히 일부분이라면 구글은 함정 수사의 결과를 과장하고 있는 것이다.
posted by 심보준
TAG 검색, 구글,

Trackback | http://blog.sragent.pe.kr/trackback/46 관련글 쓰기

댓글을 달아 주세요

2008/10/19 21:24 if (IR or NLP)
구글 검색 API를 이용해서 토익 문제를 푸는 간단한 프로그램을 만들어 보았습니다.
대상이 되는 문제 유형은 다음과 같은 형태입니다.

Shirley will be transferred to the LA office as soon as an opening there _____________ available.
(A)  becomes
(B)  will become
(C)  became
(D)  have become

로직은 이렇습니다.
A, B, C, D 보기를 빈칸에 채워 놓고 주변 단어(context words)를 포함해서 구검색(phrase search) 쿼리를 만들어, 구글 API로 검색을 합니다. 검색 결과 개수가 제일 많은 보기를 답으로 택하는 방법입니다. 결과 개수가 없거나 기준 보다 적으면 주변 단어 개수(context size)를 하나씩 줄여 가면서 구검색 쿼리를 다시 만듭니다. 실행 모습은 다음과 같습니다.

문제 : Shirley will be transferred to the LA office as soon as an opening there _____________ available.
보기 :
(A)  becomes
(B)  will become
(C)  became
(D)  have become
...(중략)...
-------------------------------------
context size: 3
query : "opening there becomes available." : 검색결과: 0건
query : "opening there will become available." : 검색결과 : 0건
query : "opening there became available." : 검색결과 : 0건
query : "opening there have become available." : 검색결과 : 0건
-------------------------------------
context size : 2
query : "there becomes available." : 검색결과 : 1390건
query : "there will become available." : 검색결과 : 42건
query : "there became available." : 검색결과 : 608건
query : "there have become available." : 검색결과 : 202건
정답 : (A)

김대균 토익 450제에서 문제 100개를 선정해서 프로그램을 돌려봤습니다.
성적이 무려
75점
이 나왔습니다. 대단한 성적입니다.(네네~~ 제 기준으로 그렇단 말입니다.)

실행 과정에서 재미있는 사실을 하나 더 볼 수 있는데요.

문제 :  Dr. Brown was _______________ of Foreign Affairs from 1991 till 1996.
(A)  a Minister
(B)  Minister
(C)  the Minister
(D)  Ministerial
context size : 3
query : "Brown was a Minister of" : 검색결과 : 7건
query : "Brown was Minister of" : 검색결과 : 9건
query : "Brown was the Minister of" : 검색결과 : 4건
query : "Brown was Ministerial of" : 검색결과 : 0건
정답 : (B)

정답인 (B) 이외에도 (A), (C) 등의 틀린 표현도 실제 웹 문서에서는 많이 쓰이고 있습니다. 정답을 못맞춘 경우는 프로그램이 제 역할을 못한 셈 치고 빼버리고, 정답을 맞춘 문제에서만 봐도 검색 결과의 약 21%는 틀린 보기의 표현이 웹문서에서 실제로 출현하고 있었습니다. 월드와이드웹의 토익점수는 79점이라고 봐야 겠군요.
posted by 심보준
TAG 구글, 토익

Trackback | http://blog.sragent.pe.kr/trackback/8 관련글 쓰기

댓글을 달아 주세요

  1. 훕.. 훌륭해요~ 저도 조만간 시간나면 꼭 해볼게요~
    요새는 장애 처리 하느라 정신이 없어서요.

    꺼진 불도 다시 보자. 제 아무리 고수의 산물이라도 의심해야 한다. T.T
    마, 이런 생각을 가지게 됩니다~하~ (이명박 투로...^^)

prev 1 next