Python tokenizer Examples

Programming Language: Python

Namespace/Package Name: kea

Method/Function: tokenizer

Examples at hotexamples.com: 2

Python tokenizer - 2 examples found. These are the top rated real world Python examples of kea.tokenizer extracted from open source projects. You can rate examples to help us improve the quality of examples.

Example #1

Show file

File: CorpusBuilder.py Project: qiuwei/datagger

    def _build_vsm(self):
        '''
        build vsm model for feature extraction
        extract features of speech content aka dialog[1]
        in this method, 1 gram and 2 gram features will be extracted.
        other features will be extracted:
            1.number of sentences
            2.whether the sentence is a question. if it contains several questions, then we will only consider the last sentence

        '''


        content_corpus = [u[1] for dialog in self._corpus for u in dialog]
        #import ipdb;ipdb.set_trace()
        sw = stopwords.words('french')
        uni_sw = [w.decode('utf-8') for w in sw]
        ftokenzier = kea.tokenizer()
        vectorizer = CountVectorizer(min_df=1, ngram_range=(1,1), stop_words=uni_sw, tokenizer=(lambda x : ftokenzier.tokenize(x)))
        term_document = vectorizer.fit_transform(content_corpus)
        #print term_document.toarray()
        #print u'bon' in vectorizer.get_feature_names()
        #self.analyze = vectorizer.build_analyzer()
        self.vectorizer = vectorizer

Example #2

Show file

#!/usr/bin/python
# -*- coding: utf-8 -*-

import kea
import codecs
import sys

################################################################################
sentence = u"Aujourd'hui, le Kea est le seul perroquet alpin au monde."
keatokenizer = kea.tokenizer()
tokens = keatokenizer.tokenize(sentence)
print tokens
################################################################################

################################################################################
sentence = u"D’où le repli des penseurs républicains sur la forme nécessaire d’une « identité nationale », seul lieu possible d’une démocratie comme auto-détermination collective contre les périls du libéralisme et du communautarisme."
keatokenizer = kea.tokenizer()
tokens = keatokenizer.tokenize(sentence)
print tokens
################################################################################