BMSTU graduate work
http://techcrunch.com/2013/08/19/twitter-related-headlines/
server: 46.101.228.8 connect: ssh 46.101.228.8
Работа по семантической схожести сообщений твиттера: https://github.com/cocoxu/SemEval-PIT2015
Код WTMF и Linking tweets to news http://www.cs.columbia.edu/~weiwei/code.html
Идеи для улучшения:
- прикрутить word2vec
- Немного на покопать: Note that there are some false positive named entities detected such as apple. We plan to address removing noisy named entities and hashtags in future work
- mine hashtags (в статье есть ссылка на соответствующую работу)