Python preprocessの例

プログラミング言語: Python

名前空間/パッケージ名: text_classify.algorithms

メソッド/関数: preprocess

hotexamples.comのコード掲載数: 10

Python preprocess - 10件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtext_classify.algorithms.preprocessの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: crawler.py プロジェクト: imjessw/rich_data_summit_2015

 def investigate(self, case_number):
     data = self.scrape(links=self.base_urls, scraping_ads=True)
     training_data = [(elem, "trafficking")
                      for elem in BackpageLogger.query.filter_by(
                          is_trafficking=True).all()]
     training_data += [(elem, "not trafficking")
                       for elem in BackpageLogger.query.filter_by(
                           is_trafficking=False).all()]
     trafficking_numbers = [
         elem.phone_number for elem in BackpageLogger.query.filter_by(
             is_trafficking=True).all()
     ]
     cls = []
     cls.append(algorithms.svm(training_data))
     cls.append(algorithms.decision_tree(training_data))
     using_naive_bayes = len(
         training_data
     ) > 50  #totally a hack, consider getting advice / changing this??
     if using_naive_bayes:
         nb = algorithms.naive_bayes(training_data)
     for datum in data:
         if datum["phone_number"] in trafficking_numbers:
             self.save([datum], case_number)
         if not using_naive_bayes:
             for cl in cls:
                 if cl.classify(algorithms.preprocess(
                         datum["text_body"])) == "trafficking":
                     self.save([datum], case_number)
         else:
             if nb.classify(datum["text_body"]) == 'trafficking':
                 self.save([datum], case_number)
     time.sleep(700)  # wait ~ 12 minutes (consider changing this)
     self.investigate(
         case_number)  #this is an infinite loop, which I am okay with.

コード例 #2

ファイルを表示

ファイル: crawler.py プロジェクト: EricSchles/open_data_science_conf_west_2015

 def investigate(self, case_number):
     data = self.scrape(links=self.base_urls, scraping_ads=True)
     training_data = [(elem, "trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=True).all()]
     training_data += [
         (elem, "not trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=False).all()
     ]
     trafficking_numbers = [elem.phone_number for elem in BackpageLogger.query.filter_by(is_trafficking=True).all()]
     cls = []
     cls.append(algorithms.svm(training_data))
     cls.append(algorithms.decision_tree(training_data))
     using_naive_bayes = len(training_data) > 50  # totally a hack, consider getting advice / changing this??
     if using_naive_bayes:
         nb = algorithms.naive_bayes(training_data)
     for datum in data:
         if datum["phone_number"] in trafficking_numbers:
             self.save([datum], case_number)
         if not using_naive_bayes:
             for cl in cls:
                 if cl.classify(algorithms.preprocess(datum["text_body"])) == "trafficking":
                     self.save([datum], case_number)
         else:
             if nb.classify(datum["text_body"]) == "trafficking":
                 self.save([datum], case_number)
     time.sleep(700)  # wait ~ 12 minutes (consider changing this)
     self.investigate(case_number)  # this is an infinite loop, which I am okay with.

コード例 #3

ファイルを表示

ファイル: crawler.py プロジェクト: EricSchles/data_festival_2015

 def investigate(self):
     data = self.scrape(self.base_urls)
     training_data = [(elem, "trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=True).all()] 
     training_data = [(elem, "not trafficking") for elem in BackpageLogger.query.filter_by(is_trafficking=False).all()]
     cls = []
     cls.append(algorithms.svm(train))
     cls.append(algorithms.decision_tree(train))
     nb = algorithms.naive_bayes(train)
     for datum in data:
         if len(train) > 50: #totally a hack/rule of thumb 
             for cl in cls:
                 if cl.classify(algorithms.preprocess(datum["text_body"])) == "trafficking":
                     self.save_ads([datum])
         else:
             if nb.classify(datum["text_body"]) == 'trafficking':
                 self.save_ads([datum])
     time.sleep(700) # wait ~ 12 minutes (consider changing this)
     self.investigate() #this is an infinite loop, which I am okay with.

コード例 #4

ファイルを表示

ファイル: testing_cross_validate.py プロジェクト: afcarl/text_classify

from text_classify import algorithms
testing = [
    ("Hello","greeting"),
    ("Hi","greeting"),
    ("Hello there","greeting"),
    ("How are you?","greeting"),
    ("Wazzup?"),("greeting"),
    ("Hey!","greeting"),
    ("hey.","greeting"),
    ("hi.","greeting"),
    ("Hi there","greeting"),
    ("Heyy","greeting"),
    ("Hello, how are you?","greeting"),
    ("bye","goodbye"),
    ("goodbye","goodbye"),
    ("byee","goodbye"),
    ("later","goodbye"),
    ("bye bye","goodbye"),
    ("adios","goodbye"),
    ("ciao","goodbye"),
    ("see ya","goodbye")
]
cl = algorithms.svm(testing)
print cl.classify(algorithms.preprocess("byee"))
algorithms.cross_validate(testing,model="svm")

コード例 #5

ファイルを表示

ファイル: test_algorithms.py プロジェクト: EricSchles/text_classify

def test_svm():
    testing = [("hello there","greeting"),("later","goodbye")]
    cl = algorithms.svm(testing)
    test = algorithms.preprocess("hello there friends")
    assert cl.classify(test) == "greeting"

コード例 #6

ファイルを表示

ファイル: things.py プロジェクト: hackingagainstslavery/investa_gator

from text_classify import algorithms
testing = [("hello there","Phil"),("later","Gena")]
cl = algorithms.svm(testing)
test = algorithms.preprocess("hello there friends")
print cl.classify(test) == "Phil"

コード例 #7

ファイルを表示

ファイル: nlp_tools.py プロジェクト: EricSchles/caseflow_reports

def classify_query(query):
    training_data = pickle.load(open("training_data.pickle","r"))
    cl = algorithms.svm(training_data)
    classification = cl.classify(algorithms.preprocess(query))
    #To do add classification_sanity_check
    return classification

コード例 #8

ファイルを表示

ファイル: nlp_tools.py プロジェクト: afcarl/caseflow_reports

def classify_query(query):
    training_data = pickle.load(open("training_data.pickle", "r"))
    cl = algorithms.svm(training_data)
    classification = cl.classify(algorithms.preprocess(query))
    #To do add classification_sanity_check
    return classification

コード例 #9

ファイルを表示

ファイル: things.py プロジェクト: imjessw/rich_data_summit_2015

from text_classify import algorithms
testing = [("hello there", "Phil"), ("later", "Gena")]
cl = algorithms.svm(testing)
test = algorithms.preprocess("hello there friends")
print cl.classify(test) == "Phil"

コード例 #10

ファイルを表示

ファイル: test_algorithms.py プロジェクト: imjessw/rich_data_summit_2015

def test_svm():
    testing = [("hello there", "greeting"), ("later", "goodbye")]
    cl = algorithms.svm(testing)
    test = algorithms.preprocess("hello there friends")
    assert cl.classify(test) == "greeting"