def passed_classifier_check(self, location_start, location_end): """ Use pre-trained classifier model to predict whether a date has right format Should be pluggable as it takes 90% parsing time """ row_df = pd.DataFrame.from_records( [get_date_features(self.TEXT, location_start, location_end)]) date_score = self.CLASSIFIER_MODEL.predict_proba( row_df.loc[:, self.CLASSIFIER_MODEL.columns]) return date_score[0, 1] > self.CLASSIFIER_THRESHOLD
def test_date_feature_1(): """ Test date feature engineering. :return: """ date_feature = get_date_features("2000-02-02", 0, 10, include_bigrams=False, characters=string.printable) assert_dict_equal(date_feature, {'char_T': 0.0, 'char_L': 0.0, 'char_?': 0.0, 'char_`': 0.0, 'char_B': 0.0, 'char_]': 0.0, 'char_Z': 0.0, 'char_&': 0.0, 'char_-': 0.2, 'char_/': 0.0, 'char_8': 0.0, 'char_c': 0.0, 'char_A': 0.0, 'char__': 0.0, 'char_I': 0.0, 'char_9': 0.0, 'char_V': 0.0, 'char_7': 0.0, 'char_b': 0.0, 'char_g': 0.0, 'char_!': 0.0, 'char_Q': 0.0, 'char_*': 0.0, 'char_{': 0.0, 'char_G': 0.0, 'char_.': 0.0, 'char_U': 0.0, 'char_\r': 0.0, 'char_:': 0.0, 'char_,': 0.0, 'char_\\': 0.0, 'char_$': 0.0, 'char_C': 0.0, 'char_\x0b': 0.0, 'char_S': 0.0, 'char_r': 0.0, 'char_J': 0.0, 'char_i': 0.0, 'char_1': 0.0, 'char_^': 0.0, 'char_l': 0.0, 'char_v': 0.0, 'char_m': 0.0, 'char_o': 0.0, 'char_h': 0.0, 'char_@': 0.0, 'char_\t': 0.0, 'char_M': 0.0, 'char_x': 0.0, 'char_2': 0.3, 'char_5': 0.0, 'char_"': 0.0, 'char_0': 0.5, 'char_q': 0.0, 'char_K': 0.0, 'char_R': 0.0, 'char_n': 0.0, 'char_4': 0.0, 'char_H': 0.0, 'char_p': 0.0, 'char_+': 0.0, 'char_O': 0.0, 'char_D': 0.0, 'char_)': 0.0, 'char_Y': 0.0, 'char_E': 0.0, 'char_<': 0.0, "char_'": 0.0, 'char_f': 0.0, 'char_t': 0.0, 'char_e': 0.0, 'char_W': 0.0, 'char_;': 0.0, 'char_s': 0.0, 'char_3': 0.0, 'char_}': 0.0, 'char_%': 0.0, 'char_P': 0.0, 'char_z': 0.0, 'char_N': 0.0, 'char_w': 0.0, 'char_\n': 0.0, 'char_d': 0.0, 'char_#': 0.0, 'char_u': 0.0, 'char_~': 0.0, 'char_>': 0.0, 'char_=': 0.0, 'char_k': 0.0, 'char_F': 0.0, 'char_ ': 0.0, 'char_\x0c': 0.0, 'char_|': 0.0, 'char_y': 0.0, 'char_(': 0.0, 'char_X': 0.0, 'char_[': 0.0, 'char_a': 0.0, 'char_j': 0.0, 'char_6': 0.0})