示例#1
0
 def passed_classifier_check(self, location_start, location_end):
     """
     Use pre-trained classifier model to predict whether a date has right format
     Should be pluggable as it takes 90% parsing time
     """
     row_df = pd.DataFrame.from_records(
         [get_date_features(self.TEXT, location_start, location_end)])
     date_score = self.CLASSIFIER_MODEL.predict_proba(
         row_df.loc[:, self.CLASSIFIER_MODEL.columns])
     return date_score[0, 1] > self.CLASSIFIER_THRESHOLD
示例#2
0
def test_date_feature_1():
    """
    Test date feature engineering.
    :return:
    """
    date_feature = get_date_features("2000-02-02", 0, 10, include_bigrams=False, characters=string.printable)
    assert_dict_equal(date_feature,
                      {'char_T': 0.0, 'char_L': 0.0, 'char_?': 0.0, 'char_`': 0.0, 'char_B': 0.0, 'char_]': 0.0,
                       'char_Z': 0.0,
                       'char_&': 0.0, 'char_-': 0.2, 'char_/': 0.0, 'char_8': 0.0, 'char_c': 0.0, 'char_A': 0.0,
                       'char__': 0.0,
                       'char_I': 0.0, 'char_9': 0.0, 'char_V': 0.0, 'char_7': 0.0, 'char_b': 0.0, 'char_g': 0.0,
                       'char_!': 0.0,
                       'char_Q': 0.0, 'char_*': 0.0, 'char_{': 0.0, 'char_G': 0.0, 'char_.': 0.0, 'char_U': 0.0,
                       'char_\r': 0.0,
                       'char_:': 0.0, 'char_,': 0.0, 'char_\\': 0.0, 'char_$': 0.0, 'char_C': 0.0, 'char_\x0b': 0.0,
                       'char_S': 0.0,
                       'char_r': 0.0, 'char_J': 0.0, 'char_i': 0.0, 'char_1': 0.0, 'char_^': 0.0, 'char_l': 0.0,
                       'char_v': 0.0,
                       'char_m': 0.0, 'char_o': 0.0, 'char_h': 0.0, 'char_@': 0.0, 'char_\t': 0.0, 'char_M': 0.0,
                       'char_x': 0.0,
                       'char_2': 0.3, 'char_5': 0.0, 'char_"': 0.0, 'char_0': 0.5, 'char_q': 0.0, 'char_K': 0.0,
                       'char_R': 0.0,
                       'char_n': 0.0, 'char_4': 0.0, 'char_H': 0.0, 'char_p': 0.0, 'char_+': 0.0, 'char_O': 0.0,
                       'char_D': 0.0,
                       'char_)': 0.0, 'char_Y': 0.0, 'char_E': 0.0, 'char_<': 0.0, "char_'": 0.0, 'char_f': 0.0,
                       'char_t': 0.0,
                       'char_e': 0.0, 'char_W': 0.0, 'char_;': 0.0, 'char_s': 0.0, 'char_3': 0.0, 'char_}': 0.0,
                       'char_%': 0.0,
                       'char_P': 0.0, 'char_z': 0.0, 'char_N': 0.0, 'char_w': 0.0, 'char_\n': 0.0, 'char_d': 0.0,
                       'char_#': 0.0,
                       'char_u': 0.0, 'char_~': 0.0, 'char_>': 0.0, 'char_=': 0.0, 'char_k': 0.0, 'char_F': 0.0,
                       'char_ ': 0.0,
                       'char_\x0c': 0.0, 'char_|': 0.0, 'char_y': 0.0, 'char_(': 0.0, 'char_X': 0.0, 'char_[': 0.0,
                       'char_a': 0.0,
                       'char_j': 0.0, 'char_6': 0.0})