Python documentFrequency 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tfidf

메소드/함수: documentFrequency

hotexamples.com에서의 예제들: 2

Python documentFrequency - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tfidf.documentFrequency에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: dedupe.py 프로젝트: JeffDonovan/dedupe

    def _learnBlocking(self, eta, epsilon):

        confident_nonduplicates = training.semiSupervisedNonDuplicates(self.data_sample, self.data_model)

        self.training_pairs[0].extend(confident_nonduplicates)

        predicate_functions = (
            predicates.wholeFieldPredicate,
            predicates.tokenFieldPredicate,
            predicates.commonIntegerPredicate,
            predicates.sameThreeCharStartPredicate,
            predicates.sameFiveCharStartPredicate,
            predicates.sameSevenCharStartPredicate,
            predicates.nearIntegersPredicate,
            predicates.commonFourGram,
            predicates.commonSixGram,
        )

        tfidf_thresholds = [0.2, 0.4, 0.6, 0.8]
        full_string_records = {}
        fields = self.data_model["fields"].keys()

        for pair in self.data_sample[0:2000]:
            for k, v in pair:
                full_string_records[k] = " ".join(v[field] for field in fields)

        df_index = tfidf.documentFrequency(full_string_records)

        learned_predicates = blocking.blockTraining(
            self.training_pairs, predicate_functions, self.data_model, tfidf_thresholds, df_index, eta, epsilon
        )

        return learned_predicates

예제 #2

파일 보기

파일: dedupe.py 프로젝트: derwiki/dedupe

    def _learnBlocking(self, data_d, eta, epsilon):
        confident_nonduplicates = blocking.semiSupervisedNonDuplicates(self.data_d,
                                                                       self.data_model)
                                                                       

        self.training_pairs[0].extend(confident_nonduplicates)

        predicate_functions = (predicates.wholeFieldPredicate,
                               predicates.tokenFieldPredicate,
                               predicates.commonIntegerPredicate,
                               predicates.sameThreeCharStartPredicate,
                               predicates.sameFiveCharStartPredicate,
                               predicates.sameSevenCharStartPredicate,
                               predicates.nearIntegersPredicate,
                               predicates.commonFourGram,
                               predicates.commonSixGram,
                               )

        tfidf_thresholds = [0.2, 0.4, 0.6, 0.8]
        full_string_records = {}
        for k, v in data_d.iteritems() :
          document = ''
          for field in self.data_model['fields'].keys() :
            document += v[field]
            document += ' '
          full_string_records[k] = document

        self.df_index = tfidf.documentFrequency(full_string_records)

        blocker = blocking.Blocking(self.training_pairs,
                                    predicate_functions,
                                    self.data_model,
                                    tfidf_thresholds,
                                    self.df_index,
                                    eta,
                                    epsilon
                                    )

        learned_predicates = blocker.trainBlocking()

        return learned_predicates