Esempi in Python per Cleaner.clean_text

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: Cleaner

Classe/tipologia: Cleaner

Metodo/funzione: clean_text

Esempi su hotexamples.com: 4

Cleaner.clean_text in Python: 4 esempi trovati. Questi sono i migliori esempi reali in Python per Cleaner.Cleaner.clean_text, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Cleaner(30)

clean_bmi(6)

Clean_Birthday(5)

Clean_Age(4)

clean_text(4)

clean_gender(3)

clean(3)

preprocess_text(2)

n_gram(2)

text_header_remover(2)

clean_file(2)

clean_empid(2)

__init__(2)

stop(1)

run(1)

replace(1)

remove_punct(1)

remove_non_marked(1)

remove_nan(1)

remove_multiple_method_comments(1)

preprocess_danmu(1)

case_fold(1)

get_df(1)

get_data_category_count(1)

get_clean(1)

getDF(1)

cleanSubtitles(1)

extractDate(1)

edit_bulk_comments(1)

delete_tags(1)

clean_df(1)

getContent(1)

Esempio n. 1

Mostra file

File: ThreadScraper.py Progetto: eluxsana/Reddit-Recommendation-Engine

class ThreadScraper:
    def __init__(self, url):
        self.res_dict = {
            'Title': [],
            'Content': [],
            'Title + Content': [],
            'URL': [],
            'ID': []
        }
        self.url = url
        self.sg = SearchGenerator(self.url)
        self.search_terms = np.asarray(self.sg.extract_keywords())
        self.df = ''
        self.cleaner = Cleaner()

    def get_submissions(self, term):
        submissions = self.sg.get_reddit().subreddit(
            str(self.sg.get_subreddit())).search(term[0],
                                                 time_filter='year',
                                                 syntax='plain')
        for sub in submissions:
            title = sub.title
            content = sub.selftext
            url = sub.url
            id = sub.id
            if not (url.endswith(".jpg")) and not (
                    url.endswith(".png")
            ) and not (url.endswith(".gif")) and len(content) > 50 and (
                    'http' not in content) and (id not in self.res_dict['ID']):
                self.res_dict['Title'].append(
                    self.cleaner.clean_text(title).split())
                self.res_dict['Content'].append(
                    self.cleaner.clean_text(content).split())
                self.res_dict['Title + Content'].append(
                    self.cleaner.clean_text(title + ' ' + content).split())
                self.res_dict['URL'].append(url)
                self.res_dict['ID'].append(id)

    def export_submission(self):
        with concurrent.futures.ThreadPoolExecutor(8) as executor:
            executor.map(self.get_submissions, self.search_terms)
        df = pd.DataFrame(self.res_dict)
        df.dropna(inplace=True)
        df.reset_index()
        self.df = df
        if not os.path.exists('data'):
            os.makedirs('data')
        print("Writing to CSV")
        df.to_csv('data/results.csv')
        print("Done...")
        return df

Esempio n. 2

Mostra file

File: CleanContent.py Progetto: eluxsana/Reddit-Recommendation-Engine

class Content:
    def __init__(self, df, url):
        self.df = df
        self.cleaner = Cleaner()

    def clean_frame(self):
        self.df = self.df[[
            'Title', 'Content'
        ]].apply(lambda x: self.cleaner.clean_text(x).split())

Esempio n. 3

Mostra file

File: SearchGenerator.py Progetto: eluxsana/Reddit-Recommendation-Engine

 def get_cleantext(self, text):
     cleaner = Cleaner()
     cleaned = cleaner.clean_text(text)
     return cleaned

Esempio n. 4

Mostra file

        data = json.load(f)
        user_values = data[json_key]
        reddit = praw.Reddit(client_id=user_values['client_id'],
                             client_secret=user_values['client_secret'],
                             user_agent=user_values['user_agent'],
                             username=user_values['username'],
                             password=user_values['password'])
        return reddit


reddit = create_reddit_object()

url = "https://www.reddit.com/r/uwaterloo/comments/h9874q/is_it_really_a_sunday_unless_you_waste_the_day/"
submission = reddit.submission(url=url)

sublist = submission.selftext
submission.comments.replace_more(limit=None)
for comment in submission.comments.list():
    sublist += ' ' + comment.body

cleaner= Cleaner()
sublist= cleaner.clean_text(sublist)
simple_kwextractor = yake.KeywordExtractor(n=2)
keywords = simple_kwextractor.extract_keywords(sublist)
#for kw in keywords:
    #print(kw)

simple_kwextractor = yake.KeywordExtractor(n=2)
keywords = simple_kwextractor.extract_keywords(cleaner.clean_text(submission.title + ' ' + sublist))
for kw in keywords:
    print(kw)