2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining 학회의 Joint Workshop 중의 하나인 The 5th International workshop on mining and analyzing social networks for decision support에 참석했다 (학회 link: http://asonam.cpsc.ucalgary.ca/Program.php). 

이번학회에서는 Discovering Hot Topics using Twitter Streaming Data: Social Topic Detection and Geographic Clustering 이란 주제로 발표를 했다. 연구 논문은 2013 IEEE/ACM의 conference proceedings 실려 있으니, 관심 있는 분들은 직접 찾아보길 바란다.

본 연구에서는 약 19 millions 건의 Twitter 데이터를 분석한 결과를 발표한 것으로, 약 10일 동안 수집한 데이터에 의하면 사람들이 Twitter에서 가장 많이 사용하는 영어 단어는 lol, love, like, good 등의 단어이다. 이러한 단어들은 정보를 제공하기 위한 목적의 글에서는 잘 발견되지 않으며, 말 그대로 개개인의 Status를 표현하는데 사용하는 단어들이다. 수집된 단어들을 빈도수가 제일 많은 단어 순으로 정렬해 보면 다음 그림과 같고, 상위 43등에 Easter라는 단어가 등장한다. Easter는 본 연구에서 데이터를 수집하는 기간 중에 발생한 부활절을 의미한다.

따라서, 단순히 단어의 빈도수 만으로 SNS에서 많이 언급되는 주제어를 찾는 것은 문제가 있다. 본 연구에서는 'the ratio of word frequency'라른 measure는 통해서, topic words를 찾는데 활용했다.

The ratio of word frequency를 이용하면, 데이터 수집기간 내에 발생했던 다양한 사회적 이슈들을 검출할 수 있다: snowfall on spring (March 24, 2013); same-sex marriage issues by the US court (March 26); world cup qualifier match between the US and Mexico (March 26); and the Easter (March 31).

이중에서 날씨(snowfall on spring)와 관련된 키워드의 the ratio of word frequency에 대한 시계열 데이터를 각 US state에서 추출하여 correlation coefficients를 계산하고, 이것을 기반으로 community detection을 계산했다.특별히 날씨는 해당 위치의 지형조건(산맥, 사막, 호수, 바다, 내륙/해안 등)에 많이 의존하기 때문에, Geographic clustering 연구에 적합한 주제라고 생각했다.

"봄에 내린 눈?" 은 누가 봐도 기상이변이고... 갑작스런 기상 변화는 SNS에서 언급될 수 있는 적합한 주제라고 생각한다. 날씨와 관련해서 US states를 clustering 했더니 재미있는 결과가 나왔다.


위 그림의 (b)는 community를 찾기 전에 획득한 adjacency matrix이고, (a)는 Louvain 방법을 이용해서 geographic clustering 한 결과이다. 재미있는 것은 snowfall이 지나간 midwest에서부터 east 지역이 하나의 Community를 형성하고 있고, 산맥과 사막 지역인 내륙 지방은 snowfall의 영향을 거의 받지 않았기 때문에, snow storm과 관련된 내용을 트위터에 많이 언급하지 않았을 것이다. 또한 서부 California, Nevada, Oregon 지역은 snow storm 기간에도 날씨가 계속 좋아서 인지, 세 지역은 하나의 community 를 구성했다 (coloured in red). 



신고