Python ngramFinder 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utility

메소드/함수: ngramFinder

hotexamples.com에서의 예제들: 2

Python ngramFinder - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utility.ngramFinder에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: bayes.py 프로젝트: alanhdu/quizbowlBot

    def train(self):
        # Maybe some stemming later?
        docCount = {1:utility.Counter(), 2:utility.Counter()}

        for text in self.documents.itervalues():
            docCount[1].update(set(utility.ngramFinder(text, 1)))
            docCount[2].update(set(utility.ngramFinder(text, 2)))
        print "Got doc count"

        categoryCount = utility.Counter()
        categoryWords = defaultdict(list)
        for q in Question.objects.all()[::100]:
            words = utility.wordParse(q.body)

            categoryWords[q.category] += words
            categoryWords[""] += words

        categoryBins = len(set(categoryWords[""]))
        del categoryWords[""]

        for category in categoryWords:
            categoryCount.update((word,) for word in set(categoryWords[category]))

        for category, words in categoryWords.items():
            categoryWords[category] = WordDist(words, categoryBins)
            utility.wordFilter(categoryCount, len(categoryWords), 
                               categoryWords[category])
        print "Trained Category"

        for label in self.documents:
            self.features[label] = NGramModel(2, self.documents[label],
                                              docCount, len(self.documents))
            category = Label.objects.get(body=label).questions.all()[0].category
            self.features[label].addBackoff(categoryWords[category],
                                            categoryBins)
        print "Trained Wikipedia"

        return categoryCount

예제 #2

파일 보기

파일: bayes.py 프로젝트: alanhdu/quizbowlBot

    def __init__(self, n, text, docCount, numDoc):
        self.n = n
        self.model = []

        for i in xrange(1, n + 1):
            ngrams = utility.ngramFinder(text, i)
            cwd = defaultdict(functools.partial(WordDist, None, len(docCount[i])))

            for ngram in ngrams:
                context = tuple(ngram[:-1])
                token = ngram[-1]
                cwd[context].add(token)

            for context in cwd.keys():
                utility.wordFilter(docCount[i], numDoc, cwd[context], context)

            self.model.append(cwd)