Python tokenize 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: texthelper

메소드/함수: tokenize

hotexamples.com에서의 예제들: 2

Python tokenize - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 texthelper.tokenize에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: naivebayes.py 프로젝트: bvisch/bayesic_tweets

    def train(self, training_data=None):
        if training_data:
            self.docs.extend(training_data)

        for category, doc in self.docs:
            for word in th.tokenize(doc):
                self.word_counts[category][word] = self.word_counts[category].get(word, 0.0) + 1
                self.vocabulary[word] = self.vocabulary.get(word, 0.0) + 1

        for word in self.vocabulary.keys():
            self.probabilities[word] = {c: self.word_counts[c].get(word, 0.0) / sum(self.word_counts[c].values()) for c in self.word_counts.keys()}

예제 #2

파일 보기

파일: naivebayes.py 프로젝트: bvisch/bayesic_tweets

    def classify(self, sentence):
        classes = { c: 0.0 for c in self.word_counts.keys() }
        doc_probs = [self.probabilities.get(word, {c: 0.0 for c in classes.keys()}) for word in th.tokenize(sentence)]
        prior_denom = sum([len(self.word_counts[c]) for c in classes.keys()])
        post_nums = {} #posterior numerators
        for c, v in classes.items():
            class_probs = [x[c] for x in doc_probs if x[c] != 0.0]
            prob = self.__product(class_probs) if class_probs else 0.0
            prior = len(self.word_counts[c]) / prior_denom
            post_nums[c] = prob * prior

        post_denom = sum(post_nums.values())
        if not post_denom:
            return 'unknown'
        posteriors = {c: v / post_denom for c, v in post_nums.items()}
        return max(posteriors.keys(), key=lambda c: posteriors[c])