Python decision_tree示例

编程语言: Python

命名空间/包名称: text_classify.algorithms

方法/功能: decision_tree

hotexamples.com的示例: 5

Python decision_tree - 已找到5个示例。这些是从开源项目中提取的最受好评的text_classify.algorithms.decision_tree现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： crawler.py 项目： imjessw/rich_data_summit_2015

 def investigate(self, case_number):
     data = self.scrape(links=self.base_urls, scraping_ads=True)
     training_data = [(elem, "trafficking")
                      for elem in BackpageLogger.query.filter_by(
                          is_trafficking=True).all()]
     training_data += [(elem, "not trafficking")
                       for elem in BackpageLogger.query.filter_by(
                           is_trafficking=False).all()]
     trafficking_numbers = [
         elem.phone_number for elem in BackpageLogger.query.filter_by(
             is_trafficking=True).all()
     ]
     cls = []
     cls.append(algorithms.svm(training_data))
     cls.append(algorithms.decision_tree(training_data))
     using_naive_bayes = len(
         training_data
     ) > 50  #totally a hack, consider getting advice / changing this??
     if using_naive_bayes:
         nb = algorithms.naive_bayes(training_data)
     for datum in data:
         if datum["phone_number"] in trafficking_numbers:
             self.save([datum], case_number)
         if not using_naive_bayes:
             for cl in cls:
                 if cl.classify(algorithms.preprocess(
                         datum["text_body"])) == "trafficking":
                     self.save([datum], case_number)
         else:
             if nb.classify(datum["text_body"]) == 'trafficking':
                 self.save([datum], case_number)
     time.sleep(700)  # wait ~ 12 minutes (consider changing this)
     self.investigate(
         case_number)  #this is an infinite loop, which I am okay with.

示例#2

显示文件

文件： crawler.py 项目： EricSchles/open_data_science_conf_west_2015

 def investigate(self, case_number):
     data = self.scrape(links=self.base_urls, scraping_ads=True)
     training_data = [(elem, "trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=True).all()]
     training_data += [
         (elem, "not trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=False).all()
     ]
     trafficking_numbers = [elem.phone_number for elem in BackpageLogger.query.filter_by(is_trafficking=True).all()]
     cls = []
     cls.append(algorithms.svm(training_data))
     cls.append(algorithms.decision_tree(training_data))
     using_naive_bayes = len(training_data) > 50  # totally a hack, consider getting advice / changing this??
     if using_naive_bayes:
         nb = algorithms.naive_bayes(training_data)
     for datum in data:
         if datum["phone_number"] in trafficking_numbers:
             self.save([datum], case_number)
         if not using_naive_bayes:
             for cl in cls:
                 if cl.classify(algorithms.preprocess(datum["text_body"])) == "trafficking":
                     self.save([datum], case_number)
         else:
             if nb.classify(datum["text_body"]) == "trafficking":
                 self.save([datum], case_number)
     time.sleep(700)  # wait ~ 12 minutes (consider changing this)
     self.investigate(case_number)  # this is an infinite loop, which I am okay with.

示例#3

显示文件

文件： crawler.py 项目： EricSchles/data_festival_2015

 def investigate(self):
     data = self.scrape(self.base_urls)
     training_data = [(elem, "trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=True).all()] 
     training_data = [(elem, "not trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=False).all()]
     cls = []
     cls.append(algorithms.svm(train))
     cls.append(algorithms.decision_tree(train))
     nb = algorithms.naive_bayes(train)
     for datum in data:
         if len(train) > 50: #totally a hack/rule of thumb 
             for cl in cls:
                 if cl.classify(algorithms.preprocess(datum["text_body"])) == "trafficking":
                     self.save_ads([datum])
         else:
             if nb.classify(datum["text_body"]) == 'trafficking':
                 self.save_ads([datum])
     time.sleep(700) # wait ~ 12 minutes (consider changing this)
     self.investigate() #this is an infinite loop, which I am okay with.

示例#4

显示文件

文件： test_algorithms.py 项目： EricSchles/text_classify

def test_decision_tree():
    testing = [("hello there","greeting"),("later","goodbye")]
    cl = algorithms.decision_tree(testing)
    test = algorithms.preprocess("hello there friends")
    assert cl.classify(test) == "greeting"

示例#5

显示文件

文件： test_algorithms.py 项目： imjessw/rich_data_summit_2015

def test_decision_tree():
    testing = [("hello there", "greeting"), ("later", "goodbye")]
    cl = algorithms.decision_tree(testing)
    test = algorithms.preprocess("hello there friends")
    assert cl.classify(test) == "greeting"