문득 블로그에 출현하는 음식 이름의 순위를 매겨 보고 싶어졌습니다. 제가 약 8만개의 rss feed 주소로 75만개 정도의 블로그 포스트를 수집해 놓은 것이 있습니다. 이럴 때 쓸 수도 있는 것이었군요.
먼저 음식 DB를 멋들어지게 구축하는 방법을 고민하기 시작했습니다. 위키피디아의 요리 카테고리를 크롤할까 궁리를 한참하다가 이건 좀 오바다 싶어서 그냥,
네이버 요리법 디렉토리와 쓸만한 칼로리표를 마우스로 손 크롤했습니다. 이렇게 해서 모두 1079개의 음식목록을 만들었습니다. 감, 죽 등 형태소 분석 오류 가능성이 높은 한글자 짜리 음식은 아쉽지만 분석 대상에서 제외했습니다.
블로그 포스트를 형태소 분석하고, 출현하는 음식이름을 카운팅, 정렬을 했습니다.
>결과 뚜둥~
라면이 밥을 제치고 1등을 차지했습니다. 음- 물론, 라면은 중의성이 있는 단어라 공정하지 못한 결과일 수도 있습니다. 80만개의 포스트에서 3만번 이상 '라면' 이라... 거품이 심하군요. 암튼 어쨌든. 따지자면 '밥'이란 단어도 특정 음식이 아니라 음식 일반을 총칭하는 단어로 쓰이기도 하기 때문에 2위에 까지 오를 수 있었겠지요. 과일 중에서는 사과가 압도적인 일등...앗 그러고 보니 사과도 중의성이 있군요. 흠흠흠. 하여간 과일, 샐러드류가 의외로 상위권을 차지했습니다.
라면을 제외한 분식류에서는 김밥이 만두, 떡볶이를 제쳤습니다. 짬뽕과 짜장면의 대결은 순위상으로는 짬뽕이 이겼지만, 짜장면과 자장면을 합친 숫자에서는 역시 짜장면의 승리입니다. 샌드위치가 햄버거를 이겼고, 김치찌개가 된장찌개를 이겼습니다. 아 이런. 그런데 삼겹살이 빠졌습니다. '삼겹살구이'라는 이름으로 올라가 있는 것을 알아차리지 못했습니다.
다음에는 음식이름의 co-occurrence 정보를 뽑아 보면 흥미로울 듯하다는 생각도 드는군요.
먼저 음식 DB를 멋들어지게 구축하는 방법을 고민하기 시작했습니다. 위키피디아의 요리 카테고리를 크롤할까 궁리를 한참하다가 이건 좀 오바다 싶어서 그냥,
네이버 요리법 디렉토리와 쓸만한 칼로리표를 마우스로 손 크롤했습니다. 이렇게 해서 모두 1079개의 음식목록을 만들었습니다. 감, 죽 등 형태소 분석 오류 가능성이 높은 한글자 짜리 음식은 아쉽지만 분석 대상에서 제외했습니다.
블로그 포스트를 형태소 분석하고, 출현하는 음식이름을 카운팅, 정렬을 했습니다.
>결과 뚜둥~
라면이 밥을 제치고 1등을 차지했습니다. 음- 물론, 라면은 중의성이 있는 단어라 공정하지 못한 결과일 수도 있습니다. 80만개의 포스트에서 3만번 이상 '라면' 이라... 거품이 심하군요. 암튼 어쨌든. 따지자면 '밥'이란 단어도 특정 음식이 아니라 음식 일반을 총칭하는 단어로 쓰이기도 하기 때문에 2위에 까지 오를 수 있었겠지요. 과일 중에서는 사과가 압도적인 일등...앗 그러고 보니 사과도 중의성이 있군요. 흠흠흠. 하여간 과일, 샐러드류가 의외로 상위권을 차지했습니다.
라면을 제외한 분식류에서는 김밥이 만두, 떡볶이를 제쳤습니다. 짬뽕과 짜장면의 대결은 순위상으로는 짬뽕이 이겼지만, 짜장면과 자장면을 합친 숫자에서는 역시 짜장면의 승리입니다. 샌드위치가 햄버거를 이겼고, 김치찌개가 된장찌개를 이겼습니다. 아 이런. 그런데 삼겹살이 빠졌습니다. '삼겹살구이'라는 이름으로 올라가 있는 것을 알아차리지 못했습니다.
다음에는 음식이름의 co-occurrence 정보를 뽑아 보면 흥미로울 듯하다는 생각도 드는군요.