Python wordParse示例

编程语言: Python

命名空间/包名称: utility

方法/功能: wordParse

hotexamples.com的示例: 2

Python wordParse - 已找到2个示例。这些是从开源项目中提取的最受好评的utility.wordParse现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： tree.py 项目： alanhdu/quizbowlBot

    def train(self):
        trainingData, allFeatures, docCount = [], set(), utility.Counter()
        paragraphCounter = 0

        for label, text in self.documents.items():
            for paragraph in text.split("\n"):
                d = defaultdict(bool)
                words = set(utility.wordParse(paragraph))
                docCount.update(words)
                paragraphCounter += 1
                for word in words:
                    d[word] = True
                    allFeatures.add(word)
                trainingData.append((label, d))
        print len(allFeatures)
        self.tree = BoolDecisionTree(trainingData, allFeatures)

示例#2

显示文件

文件： bayes.py 项目： alanhdu/quizbowlBot

    def train(self):
        # Maybe some stemming later?
        docCount = {1:utility.Counter(), 2:utility.Counter()}

        for text in self.documents.itervalues():
            docCount[1].update(set(utility.ngramFinder(text, 1)))
            docCount[2].update(set(utility.ngramFinder(text, 2)))
        print "Got doc count"

        categoryCount = utility.Counter()
        categoryWords = defaultdict(list)
        for q in Question.objects.all()[::100]:
            words = utility.wordParse(q.body)

            categoryWords[q.category] += words
            categoryWords[""] += words

        categoryBins = len(set(categoryWords[""]))
        del categoryWords[""]

        for category in categoryWords:
            categoryCount.update((word,) for word in set(categoryWords[category]))

        for category, words in categoryWords.items():
            categoryWords[category] = WordDist(words, categoryBins)
            utility.wordFilter(categoryCount, len(categoryWords), 
                               categoryWords[category])
        print "Trained Category"

        for label in self.documents:
            self.features[label] = NGramModel(2, self.documents[label],
                                              docCount, len(self.documents))
            category = Label.objects.get(body=label).questions.all()[0].category
            self.features[label].addBackoff(categoryWords[category],
                                            categoryBins)
        print "Trained Wikipedia"

        return categoryCount