langModelLogFile = ".\\LanguageModel\\Output\\language_model.txt" stopWordsFileName = ".\\LanguageModel\\Input\\stop_words.txt" # The serialization file to save the model languageModelSerializationFile = ".\\LanguageModel\\Output\\language_model.bin" # Start the LanguageModel: #------------------------- if not LOAD_LANGUAGE_MODEL: # Initialize the LanguageModel languageModel = LanguageModel(configFileLanguageModel, stopWordsFileName, languageModelSerializationFile, datasetBuilder.dataSet) languageModel.BuildLanguageModel() if MERGE_BI_GRAM: languageModel.NGram = 2 languageModel.BuildLanguageModel() if MERGE_TRI_GRAM: languageModel.NGram = 3 languageModel.BuildLanguageModel() languageModel.DumpLanguageModel(langModelLogFile) languageModel.SaveModel() else: # Load the LanguageModel languageModel = LanguageModel(configFileLanguageModel, stopWordsFileName, languageModelSerializationFile, datasetBuilder.dataSet) languageModel.LoadModel()
datasetBuilder.dataSet) languageModel.LoadModelFromTxtFile(langModelTxtLoadFile) elif LANGUAGE_MODEL_ON_RELEVANT: # Extract relevant tweets only relevantDataSet = [] for case in datasetBuilder.dataSet: if case['label'] == 'relevant': relevantDataSet.append(case) # Initialize the LanguageModel languageModel = LanguageModel(configFileLanguageModel, stopWordsFileName, languageModelSerializationFile, relevantDataSet) languageModel.BuildLanguageModel() if MERGE_BI_GRAM: languageModel.NGram = 2 languageModel.BuildLanguageModel() if MERGE_TRI_GRAM: languageModel.NGram = 3 languageModel.BuildLanguageModel() languageModel.DumpLanguageModel(langModelLogFile) languageModel.SaveModel() elif LANGUAGE_MODEL_ON_UNIQ_RELEVANT_AND_IRREL: # Extract relevant tweets only relevantDataSet = [] irrelevantDataSet = [] for case in datasetBuilder.dataSet: if case['label'] == 'relevant': relevantDataSet.append(case)