def _build_vsm(self): ''' build vsm model for feature extraction extract features of speech content aka dialog[1] in this method, 1 gram and 2 gram features will be extracted. other features will be extracted: 1.number of sentences 2.whether the sentence is a question. if it contains several questions, then we will only consider the last sentence ''' content_corpus = [u[1] for dialog in self._corpus for u in dialog] #import ipdb;ipdb.set_trace() sw = stopwords.words('french') uni_sw = [w.decode('utf-8') for w in sw] ftokenzier = kea.tokenizer() vectorizer = CountVectorizer(min_df=1, ngram_range=(1,1), stop_words=uni_sw, tokenizer=(lambda x : ftokenzier.tokenize(x))) term_document = vectorizer.fit_transform(content_corpus) #print term_document.toarray() #print u'bon' in vectorizer.get_feature_names() #self.analyze = vectorizer.build_analyzer() self.vectorizer = vectorizer
#!/usr/bin/python # -*- coding: utf-8 -*- import kea import codecs import sys ################################################################################ sentence = u"Aujourd'hui, le Kea est le seul perroquet alpin au monde." keatokenizer = kea.tokenizer() tokens = keatokenizer.tokenize(sentence) print tokens ################################################################################ ################################################################################ sentence = u"D’où le repli des penseurs républicains sur la forme nécessaire d’une « identité nationale », seul lieu possible d’une démocratie comme auto-détermination collective contre les périls du libéralisme et du communautarisme." keatokenizer = kea.tokenizer() tokens = keatokenizer.tokenize(sentence) print tokens ################################################################################