Python documentFrequency Exemples

Langage de programmation: Python

Espace de nommage/Pack: tfidf

Méthode/Fonction: documentFrequency

Exemples au hotexamples.com: 2

Python documentFrequency - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de tfidf.documentFrequency extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Associées

gausslobatto

arg

register_generator

select_best_table

KeyBytes

gtid_set_union

is_git

TimerUI

receiver

ctxlogBeginCodeModule

Related in langs

getuserlist (PHP)

ShippingEasy (PHP)

GLP800 (C#)

SqlServerDatabaseManager (C#)

get_error_description (C++)

LED_init (C++)

NotPanics (Go)

CGO_IceServer (Go)

TCRL_AST (Java)

JSONWebServiceActionConfig (Java)

Exemple #1

0

Afficher le fichier

Fichier : dedupe.py Projet : JeffDonovan/dedupe

def _learnBlocking(self, eta, epsilon): confident_nonduplicates = training.semiSupervisedNonDuplicates(self.data_sample, self.data_model) self.training_pairs[0].extend(confident_nonduplicates) predicate_functions = ( predicates.wholeFieldPredicate, predicates.tokenFieldPredicate, predicates.commonIntegerPredicate, predicates.sameThreeCharStartPredicate, predicates.sameFiveCharStartPredicate, predicates.sameSevenCharStartPredicate, predicates.nearIntegersPredicate, predicates.commonFourGram, predicates.commonSixGram, ) tfidf_thresholds = [0.2, 0.4, 0.6, 0.8] full_string_records = {} fields = self.data_model["fields"].keys() for pair in self.data_sample[0:2000]: for k, v in pair: full_string_records[k] = " ".join(v[field] for field in fields) df_index = tfidf.documentFrequency(full_string_records) learned_predicates = blocking.blockTraining( self.training_pairs, predicate_functions, self.data_model, tfidf_thresholds, df_index, eta, epsilon ) return learned_predicates

Exemple #2

0

Afficher le fichier

Fichier : dedupe.py Projet : derwiki/dedupe

def _learnBlocking(self, data_d, eta, epsilon): confident_nonduplicates = blocking.semiSupervisedNonDuplicates(self.data_d, self.data_model) self.training_pairs[0].extend(confident_nonduplicates) predicate_functions = (predicates.wholeFieldPredicate, predicates.tokenFieldPredicate, predicates.commonIntegerPredicate, predicates.sameThreeCharStartPredicate, predicates.sameFiveCharStartPredicate, predicates.sameSevenCharStartPredicate, predicates.nearIntegersPredicate, predicates.commonFourGram, predicates.commonSixGram, ) tfidf_thresholds = [0.2, 0.4, 0.6, 0.8] full_string_records = {} for k, v in data_d.iteritems() : document = '' for field in self.data_model['fields'].keys() : document += v[field] document += ' ' full_string_records[k] = document self.df_index = tfidf.documentFrequency(full_string_records) blocker = blocking.Blocking(self.training_pairs, predicate_functions, self.data_model, tfidf_thresholds, self.df_index, eta, epsilon ) learned_predicates = blocker.trainBlocking() return learned_predicates