Python TextTokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: trnltk.tokenizer.texttokenizer

클래스/타입: TextTokenizer

hotexamples.com에서의 예제들: 3

Python TextTokenizer - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 trnltk.tokenizer.texttokenizer.TextTokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TextTokenizer(2)

tokenize(1)

예제 #1

파일 보기

    def post(self):

        param_corpus_name = self.request.get('corpusName')
        param_corpus_desc = self.request.get('corpusDescription')
        param_corpus_content = self.request.get('corpusContent')

        assert param_corpus_name and param_corpus_desc and param_corpus_content

        corpus_creator_view = CorpusCreatorView()
        dbmanager = applicationcontext.application_context_instance.dbmanager
        tokenizer = TextTokenizer()

        self.controller = CorpusCreatorController(corpus_creator_view,
                                                  dbmanager, tokenizer)

        self.controller.create_corpus(param_corpus_name, param_corpus_desc,
                                      param_corpus_content)

        view_context = corpus_creator_view.get_template_context()

        self.render_response("corpuscreatortemplate.jinja2", **view_context)

예제 #2

파일 보기

파일: test_texttokenizer.py 프로젝트: v-mostafapour/trnltk

 def setUp(self):
     self.tokenizer = TextTokenizer()

예제 #3

파일 보기

파일: test_texttokenizer.py 프로젝트: v-mostafapour/trnltk

class TextTokenizerTest(unittest.TestCase):
    def setUp(self):
        self.tokenizer = TextTokenizer()

    def test_should_tokenize_text(self):
        text = u"""Fiyatları uçuşa geçti."""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'Fiyatları', u'uçuşa', u'geçti', u'.'))

        text = u"""Fiyatları uçuşa geçti. """
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'Fiyatları', u'uçuşa', u'geçti', u'.'))

        text = u""" Fiyatları uçuşa geçti."""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'Fiyatları', u'uçuşa', u'geçti', u'.'))

        text = u"""Fiyatları uçuşa geçti ."""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'Fiyatları', u'uçuşa', u'geçti', u'.'))

        text = u"""\r\t\p\nFiyatları\n \t\r\n  uçuşa \rgeçti .   \t"""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'Fiyatları', u'uçuşa', u'geçti', u'.'))


    def test_should_tokenize_text_with_exceptions(self):
        text = u"""\r\tABD'de\n elma fiyatları\n \t\r\n  uçuşa \rgeçti .   \t"""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'ABD\'de', u'elma', u'fiyatları', u'uçuşa', u'geçti', u'.'))

        text = u"""\r\tABD'de\n elma fiyatları\n \t\r\n  uçuşa \rgeçti ..   \t"""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'ABD\'de', u'elma', u'fiyatları', u'uçuşa', u'geçti', u'..'))

        text = u"""\r\tABD'de\n elma fiyatları\n \t\r\n  uçuşa \rgeçti !..   \t"""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'ABD\'de', u'elma', u'fiyatları', u'uçuşa', u'geçti', u'!..'))

        text = u"""\r\tABD'de\n elma fiyatları\n \t\r\n 3.  uçuşa \rgeçti .   \t"""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'ABD\'de', u'elma', u'fiyatları', u'3.', u'uçuşa', u'geçti', u'.'))

        text = u"""\r\tABD'de\n elma fiyatları\n \t\r\n 5'te uçuşa \rgeçti .   \t"""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'ABD\'de', u'elma', u'fiyatları', u'5\'te', u'uçuşa', u'geçti', u'.'))

        text = u"""\r\tABD'de\n elma fiyatları\n \t\r\n 5.'de uçuşa \rgeçti .   \t"""
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'ABD\'de', u'elma', u'fiyatları', u'5.\'de', u'uçuşa', u'geçti', u'.'))

        text = u"5:20 gibi gelecek."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'5:20', u'gibi', u'gelecek', u'.'))

        text = u"5,60 TL verdim."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'5,60', u'TL', u'verdim', u'.'))

        text = u"5.600 TL verdim."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'5.600', u'TL', u'verdim', u'.'))

        text = u"5.600,1234 TL verdim."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'5.600,1234', u'TL', u'verdim', u'.'))

        text = u"100'le gidiyor."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'100\'le', u'gidiyor', u'.'))

        text = u"5:20'de geliyorum."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'5:20\'de', u'geliyorum', u'.'))

        text = u"5,74'te bir ihtimal."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'5,74\'te', u'bir', u'ihtimal', u'.'))

        text = u"6, 7 ve 8 numara gelsin."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'6', u'7', u've', u'8', u'numara', u'gelsin', u'.'))

        text = u"6., 7. ve 8. adamlar gelsin."
        tokens = self.tokenizer.tokenize(text)
        assert_that(tokens, has_items(u'6.', u'7.', u've', u'8.', u'adamlar', u'gelsin', u'.'))


    def test_should_tokenize_longer_text(self):
        text = u"""
ABD'den gelen veriyle altın fiyatları uçuşa geçti.
ABD'de tarım dışı istihdamın beklentilerin altında artmasının ardından küresel piyasalarda ABD Merkez Bankası'nın yavaşlayan ekonomiye önlem olarak yeni bir parasal gevşemeye gideceğine yönelik beklentilerle altın 6 ayın en yüksek düzeyini gördü.
Altının ons fiyatı ABD'den 15.30'da gelen verinin hemen ardından dakikalar içinde yüzde 1.5 yükselişle 1730 dolara kadar yükseldi.
ABD'den gelen zayıf veriler yatırımcıları güvenli liman olan altına yönlendiriyor.
Altının yıl başından bu yana değer kazancı yüzde 10'u aştı.
Uluslararası piyasalarda altının onsu yıl içerinde en düşük 1527,22 doları en yüksek ise 1790,79 doları gördü.
        """
        tokens = self.tokenizer.tokenize(text)

        assert_that('' not in tokens)                                   # no empty text
        assert_that(all([lambda x : all([c not in x for c in [u'\r', u'\n', u' ']]) for x in tokens]))     # no whitespace
        for a in tokens:
            print u'=={}=='.format(a)