def out_to_libsvm_format_arow(doc_based_map,sentence_based_map,feature_map_numeric, feature_map_character, tfidf, tfidf_score_map, exno, tfidf_idea, args): #TODO libsvm用のフォーマットを出力するディレクトリをheadで指定できるようにする #今のままだと各関数内の空間内でバラバラに定義されていて良くない thompson_training_tree_featurespace=feature_function.convert_to_feature_space_arow(sentence_based_map, feature_map_character, feature_map_numeric, tfidf_score_map, tfidf, tfidf_idea, args); #First step, train model only from thompson tree #トンプソン木からのデータだけを先に訓練してしまう shape_format(thompson_training_tree_featurespace,'super',args); #文書単位のデータ(一文ごと)をlibsvm_formatに変換する doc_based_trainingmap_featurespace=conv_to_featurespace_for_dutch_in_arowmode(doc_based_map,feature_map_character,feature_map_numeric); #thompson木で訓練したモデルで判断して,閾値以上の確信度が得られた事例だけ得る additional_instance_stack=shape_format(doc_based_trainingmap_featurespace,'semi',args); #thompsonから生成した訓練データ libsvm_formatと↑を足し合わせて,ファイルに書き込む add_additional_instances(additional_instance_stack,args);
def out_to_libsvm_format_logistic(doc_based_map,sentence_labeled_map,feature_map_numeric, feature_map_character, tfidf, tfidf_score_map, exno, tfidf_idea, args): thompson_training_tree_featurespace=feature_function.convert_to_feature_space_arow(sentence_labeled_map, feature_map_character, feature_map_numeric, tfidf_score_map, tfidf, tfidf_idea, args); #First step, train model only from thompson tree #トンプソン木からのデータだけを先に訓練してしまう shape_format(thompson_training_tree_featurespace,'super',args); #文書単位のデータ(一文ごと)をlibsvm_formatに変換する doc_based_trainingmap_featurespace=conv_to_featurespace_for_dutch_in_arowmode(doc_based_map,feature_map_character,feature_map_numeric); #thompson木で訓練したモデルで判断して,閾値以上の確信度が得られた事例だけ得る additional_instance_stack=shape_format(doc_based_trainingmap_featurespace,'semi',args); #TODO この下の関数に似た,logistic用の関数を作り出す #この下の関数内に新たにlogistic用を書き加えば良い add_additional_instances(additional_instance_stack,args);