Python Cleaner.Cleaner示例，Cleaner.Cleaner.Cleaner Python示例

示例#1

0

显示文件

 def __init__(self, localDownloadQueue="PendingDownloadQueue"):
     Base.__init__(self)
     self.download_queue = localDownloadQueue
     self.ftp_sync = FileSyncer()
     self.move_file_into_processing()
     Extractor(self.local_directory_to_sync)
     Cleaner(self.local_directory_to_sync)

示例#2

0

显示文件

 def get_recommendations(self):
     cleaner = Cleaner()
     sg=SearchGenerator(self.url)
     words = self.dictionary.doc2bow(sg.get_cleancontent().split())
     print("Top words identified: ")
     for word in words:
         print("{} {}".format(word[0], self.dictionary[word[0]]))
     query_vector = self.lda[words]
     sims = self.get_similarity(self.lda, query_vector)
     sims = sorted(enumerate(sims), key=lambda item: -item[1])
     idx = 0
     pids = []
     result = 10
     recommendation=[]
     page_ids = self.df['ID'].to_list()
     print("\nCheck out the links below:")
     while result > 0:
         pageid = page_ids[sims[idx][0]]
         if pageid not in pids:
             pids.append(pageid)
             print("{}".format(self.df[self.df['ID']==pageid]['URL'].values[0]))
             recommendation.append(self.df[self.df['ID']==pageid]['URL'].values[0])
             result -= 1
         idx += 1
     return recommendation

示例#3

0

显示文件

文件： UnitTests.py 项目： Smarine43/advancedProgrammingAssignment2

 def test_cleaner_age_valid_Int(self):
     clean = Cleaner()
     test_data = 99
     expected_result = 99
     actual_result = clean.Clean_Age(test_data)[0]
     self.assertEqual(actual_result, expected_result,
                      "actaul_result should equal" + str(expected_result))

示例#4

0

显示文件

文件： UnitTests.py 项目： Smarine43/advancedProgrammingAssignment2

 def test_cleaner_birthday_Invalid_3_response1(self):
     clean = Cleaner()
     test_data = "hello-break-me"
     expected_result = None
     actual_result = clean.Clean_Birthday(test_data)[0]
     self.assertEqual(actual_result, expected_result,
                      "actaul_result should equal" + str(expected_result))

示例#5

0

显示文件

文件： Dialog.py 项目： asmi38/clean-reddit

    def get_text(self):
        words = self.plainTextEdit.toPlainText()
        cleaner = Cleaner()
        words2 = cleaner.edit_bulk_comments(words)

        for item in words2:
            self.textEdit.append(item)

示例#6

0

显示文件

文件： UnitTests.py 项目： Smarine43/advancedProgrammingAssignment2

 def test_cleaner_birthday_Invalid_3_response2(self):
     clean = Cleaner()
     test_data = "23-11-99"
     expected_result = "The year needs to be in the full format eg: 2009"
     actual_result = clean.Clean_Birthday(test_data)[1]
     self.assertEqual(actual_result, expected_result,
                      "actaul_result should equal" + str(expected_result))

示例#7

0

显示文件

文件： UnitTests.py 项目： Smarine43/advancedProgrammingAssignment2

 def test_cleaner_birthday_valid_2(self):
     clean = Cleaner()
     test_data = "25-11-1991"
     expected_result = "25-11-1991"
     actual_result = clean.Clean_Birthday(test_data)[0]
     self.assertEqual(actual_result, expected_result,
                      "actaul_result should equal" + str(expected_result))

示例#8

0

显示文件

文件： UnitTests.py 项目： Smarine43/advancedProgrammingAssignment2

 def test_cleaner_age_invalid(self):
     clean = Cleaner()
     test_data = "nine"
     expected_result = None
     actual_result = clean.Clean_Age(test_data)[0]
     self.assertEqual(actual_result, expected_result,
                      "actaul_result should equal" + str(expected_result))

示例#9

0

显示文件

 def __init__(self, dirPath, binsNum):
     self.binsNum = binsNum
     self.dirPath = dirPath
     self.m_estimate = 2
     self.loadStructure()
     try:
         self.df = pd.read_csv(self.dirPath + "/train.csv")
     except IOError:
         tkMessageBox.showerror(
             "Naive Bayes Classifier - Error",
             "There is a problem with open " + self.dirPath + "/train.csv")
     self.cleaner = Cleaner(self)
     self.naiveBases = {}  #attributeValue and Classification to NaiveBase
     self.cProb = {}
     for (i, record) in self.df.iterrows():
         recordDic = record.to_dict()
         for attribute in recordDic:
             value = recordDic[attribute]
             c = recordDic["class"]
             n_c = len(self.df.loc[((self.df[attribute] == value) &
                                    (self.df["class"] == c))].index)
             n = len(self.df.loc[(self.df["class"] == c)].index)
             m = self.m_estimate
             M = len(self.structure[attribute])
             p = float(1) / M
             naiveBase = float(n_c + m * p) / (n + m)
             self.naiveBases[attribute + str(value) + c] = naiveBase
     for c in self.structure["class"]:
         self.cProb[c] = float(
             len(self.df.loc[(self.df["class"] == c)].index)) / len(
                 self.df.index)
     tkMessageBox.showinfo("Naive Bayes Classifier - Success",
                           "Building classifier using train-set is done!")

示例#10

0

显示文件

    def read_emails(self, path):
        # Get all files
        files = [f for f in listdir(path) if isfile(join(path, f))]

        try:
            del (files[files.index('DS_Store')])
        except:
            pass

        reader = WordListCorpusReader(path, files)

        cleaner = Cleaner()

        emails = list()

        # Creates the Email Object out of each email file and appends to list
        for file_id in reader.fileids():
            with open(path + file_id, 'r') as current_file:
                cleaned_contents = cleaner.clean_file(current_file.read())
                split_email_header, split_email_body, split_email_file_id = self.divide(
                    cleaned_contents, file_id)
                emails.append(
                    Email(split_email_header, split_email_body,
                          split_email_file_id))

        # Return list of Email objects
        return emails

示例#11

0

显示文件