Python Tokenizer示例

编程语言: Python

命名空间/包名称: naive_bayes.tokenizer

类/类型: Tokenizer

hotexamples.com的示例: 9

Python Tokenizer - 已找到9个示例。这些是从开源项目中提取的最受好评的naive_bayes.tokenizer.Tokenizer现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

unique_tokenizer(3)

ngram(2)

tokenize(2)

示例#1

显示文件

  def test_ngrams(self):
    expectation = [
      [u'\u0000', "quick"],
      ["quick", "brown"],
      ["brown", "fox"],
    ]

    actual = Tokenizer.ngram("quick brown fox", 2)
    self.assertEqual(actual, expectation)

示例#2

显示文件

    def test_ngrams(self):
        expectation = [
            [u'\u0000', 'quick'],
            ['quick', 'brown'],
            ['brown', 'fox']
        ]

        actual = Tokenizer.ngram('quick brown fox', 2)
        self.assertEqual(actual, expectation)

示例#3

显示文件

文件： tokenizer_test.py 项目： amitbe79/examples-in-python

  def test_ngrams(self):
    expectation = [
        [u'\u0000', "quick"],
        ["quick", "brown"],
        ["brown", "fox"],
    ]

    actual = Tokenizer.ngram("quick brown fox", 2)
    self.assertEqual(actual, expectation)

示例#4

显示文件

文件： spam_trainer.py 项目： cmarsa/tmlwp

    def train(self):
        for category, file in self.to_train:
            email = EmailObject(io.open(file, 'rb'))

            self.categories.add(category)

            for token in Tokenizer.unique_tokenizer(email.body()):
                self.training[category][token] += 1
                self.totals['_all'] += 1
                self.totals[category] += 1

        self.to_train = {}

示例#5

显示文件

文件： spam_trainer.py 项目： cmarsa/tmlwp

    def score(self, email):
        self.train()

        cat_totals = self.totals

        aggregates = {
            cat: cat_totals[cat] / cat_totals['_all']
            for cat in self.categories
        }
        for token in Tokenizer.unique_tokenizer(email.body()):
            for cat in self.categories:
                value = self.training[cat][token]
                r = (value + 1) / (cat_totals[cat] + 1)
                aggregates[cat] *= r
        return aggregates

示例#6

显示文件

文件： spam_trainer.py 项目： shravankumar147/examples-in-python

    def score(self, email):
        """
    Calculates score
    :param email: EmailObject
    :return: float number
    """
        self.train()

        cat_totals = self.totals

        aggregates = {
            cat: cat_totals[cat] / cat_totals['_all']
            for cat in self.categories
        }

        for token in Tokenizer.unique_tokenizer(email.body()):
            for cat in self.categories:
                value = self.training[cat][token]
                r = (value + 1) / (cat_totals[cat] + 1)
                aggregates[cat] *= r

        return aggregates

示例#7

显示文件

  def test_downcasing(self):
    expectation = ["this", "is", "all", "caps"]

    actual = Tokenizer.tokenize("THIS IS ALL CAPS")
    self.assertEqual(actual, expectation)

示例#8

显示文件

    def test_cowncasting(self):
        expectation = ['this', 'is', 'all', 'caps']

        actual = Tokenizer.tokenize('THIS IS ALL CAPS')
        self.assertEqual(actual, expectation)

示例#9

显示文件

文件： tokenizer_test.py 项目： amitbe79/examples-in-python

  def test_downcasing(self):
    expectation = ["this", "is", "all", "caps"]

    actual = Tokenizer.tokenize("THIS IS ALL CAPS")
    self.assertEqual(actual, expectation)