Skip to content

art-vybor/twnews

Repository files navigation

twnews

BMSTU graduate work

http://techcrunch.com/2013/08/19/twitter-related-headlines/

server: 46.101.228.8 connect: ssh 46.101.228.8

Работа по семантической схожести сообщений твиттера: https://github.com/cocoxu/SemEval-PIT2015

Код WTMF и Linking tweets to news http://www.cs.columbia.edu/~weiwei/code.html

LSA: https://ru.wikipedia.org/wiki/%D0%9B%D0%B0%D1%82%D0%B5%D0%BD%D1%82%D0%BD%D0%BE-%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7

Идеи для улучшения:

  • прикрутить word2vec
  • Немного на покопать: Note that there are some false positive named entities detected such as apple. We plan to address removing noisy named entities and hashtags in future work
  • mine hashtags (в статье есть ссылка на соответствующую работу)

https://xyclade.github.io/MachineLearning/