Python tokenize示例

编程语言: Python

命名空间/包名称: nlp.tokenizers.es

方法/功能: tokenize

hotexamples.com的示例: 7

Python tokenize - 已找到7个示例。这些是从开源项目中提取的最受好评的nlp.tokenizers.es.tokenize现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： test_tokenizers.py 项目： nosamanuel/nlp

    def test_compounds(self):
        tokens = es.tokenize(decode("Desde allí, consigna el documento, los aviones C-17 podrían alcanzar casi todo el continente sudamericano sin necesidad de reabastecimiento de combustible."), as_unicode=True)
        self.failUnless(u'C-17' in tokens)
        self.failUnless(decode('allí') in tokens)

        tokens = es.tokenize(decode("La empresa dueña del proyecto es DE-LIO Company"), as_unicode=True)
        self.failUnless(u'DE-LIO' in tokens)

示例#2

显示文件

文件： test_tokenizers.py 项目： nosamanuel/nlp

    def test_numerics(self):
        tokens = es.tokenize(decode("En total 2.113 civiles perdieron la vida en 2008."), as_unicode=True)
        self.failUnless(u'2.113' in tokens)
        self.failUnless(u'2008' in tokens)

        tokens = es.tokenize(decode(r"registró un aumento del 24% en 2009"), as_unicode=True)
        self.failUnless(u'24%' in tokens)

        tokens = es.tokenize(decode("Es vergonzoso que se haya gastado US$38.000 millones en armas"), as_unicode=True)
        self.failUnless(u'US$38.000' in tokens)

示例#3

显示文件

文件： test_tokenizers.py 项目： nosamanuel/nlp

 def test_simple(self):
     tokens = es.tokenize(decode("¿A qué le temen los afganos?"), as_unicode=True)
     self.assertEqual(tokens, [
         u'\xbf', u'A', u'qu\xe9',
         u'le', u'temen', u'los', u'afganos', u'?'])

示例#4

显示文件

文件： test_tokenizers.py 项目： nosamanuel/nlp

 def test_compounds_regression(self):
     tokens = es.tokenize(decode("3M y McDonald´s."), as_unicode=True)
     self.assertEqual(len(tokens), 4)

示例#5

显示文件

文件： test_tokenizers.py 项目： nosamanuel/nlp

 def test_punctuation(self):
     tokens = es.tokenize(decode("Hay juegos bélicos en los que se ve gente mutilada, disparos, choques con carro, es una violencia fuerte..."), as_unicode=True)
     self.failUnless(u'...' in tokens)

示例#6

显示文件

文件： test_tokenizers.py 项目： nosamanuel/nlp

 def test_abbreviations(self):
     tokens = es.tokenize(decode("¿deben Colombia y EE.UU. explicar los detalles del acuerdo?"), as_unicode=True)
     self.failUnless(u'EE.UU.' in tokens)

示例#7

显示文件

文件： test_tokenizers.py 项目： nosamanuel/nlp

    def test_urls(self):
        tokens = es.tokenize(decode("que se desarrolló \"debido a la saturación de Twitter.com\""), as_unicode=True)
        self.failUnless(u'Twitter.com' in tokens)

        tokens = es.tokenize(decode("http://www.bbc.co.uk/mundo/lg/internacional/2009/08/090723_vida_afganistan_jp.shtml"), as_unicode=True)
        self.assertEqual(len(tokens), 1)