示例#1
0
    def _build_vsm(self):
        '''
        build vsm model for feature extraction
        extract features of speech content aka dialog[1]
        in this method, 1 gram and 2 gram features will be extracted.
        other features will be extracted:
            1.number of sentences
            2.whether the sentence is a question. if it contains several questions, then we will only consider the last sentence

        '''


        content_corpus = [u[1] for dialog in self._corpus for u in dialog]
        #import ipdb;ipdb.set_trace()
        sw = stopwords.words('french')
        uni_sw = [w.decode('utf-8') for w in sw]
        ftokenzier = kea.tokenizer()
        vectorizer = CountVectorizer(min_df=1, ngram_range=(1,1), stop_words=uni_sw, tokenizer=(lambda x : ftokenzier.tokenize(x)))
        term_document = vectorizer.fit_transform(content_corpus)
        #print term_document.toarray()
        #print u'bon' in vectorizer.get_feature_names()
        #self.analyze = vectorizer.build_analyzer()
        self.vectorizer = vectorizer
示例#2
0
#!/usr/bin/python
# -*- coding: utf-8 -*-

import kea
import codecs
import sys

################################################################################
sentence = u"Aujourd'hui, le Kea est le seul perroquet alpin au monde."
keatokenizer = kea.tokenizer()
tokens = keatokenizer.tokenize(sentence)
print tokens
################################################################################

################################################################################
sentence = u"D’où le repli des penseurs républicains sur la forme nécessaire d’une « identité nationale », seul lieu possible d’une démocratie comme auto-détermination collective contre les périls du libéralisme et du communautarisme."
keatokenizer = kea.tokenizer()
tokens = keatokenizer.tokenize(sentence)
print tokens
################################################################################