Python ContentParser.content_processor 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: content_parser

클래스/타입: ContentParser

메소드/함수: content_processor

hotexamples.com에서의 예제들: 6

Python ContentParser.content_processor - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 content_parser.ContentParser.content_processor에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ContentParser(11)

content_processor(6)

content_query(2)

sent_error_email(2)

예제 #1

파일 보기

                        links_descs.append(html.unescape(a.get_text().strip()))
            res_dict['news_related_url'] = links
            res_dict['news_related_url_desc'] = links_descs

    content = '\n'.join(temp_content).strip()
    if content:
        res_dict['news'] = html.unescape(content)

    if not res_dict or 'news' not in res_dict:
        content_parser.logger.error(
            'Ettoday url: {} did not process properly'.format(url))
        content_parser.errors['process_empty_content_(rss_id)'].append(
            [rss_id, url])
        return
    return res_dict


content_parser = ContentParser('ETtoday')
# Query the data with source name
unprocessed_data = content_parser.content_query()

content_parser.content_processor(unprocessed_data, ettoday_content_processor)
if content_parser.errors:
    content_parser.sent_error_email()
content_parser.encoding_cursor.close()
content_parser.mydb.close()
content_parser.logger.info(
    "Processed Ettoday {} examples in {} seconds".format(
        len(unprocessed_data),
        time.time() - start))

예제 #2

파일 보기

        content = article_body_tag.text.strip()
        if content:
            res_dict['news'] = html.unescape(content)
    elif article_body_tag_2:
        content = article_body_tag_2.text.strip()
        if content:
            res_dict['news'] = html.unescape(content)

    if not res_dict or 'news' not in res_dict:
        content_parser.logger.error(
            'PTS url: {} did not process properly'.format(url))
        content_parser.errors['process_empty_content_(rss_id)'].append(
            [rss_id, url])
        return

    return res_dict


content_parser = ContentParser('公視新聞網')
# Query the data with source name
unprocessed_data = content_parser.content_query()

content_parser.content_processor(unprocessed_data, pts_content_processor)
if content_parser.errors:
    content_parser.sent_error_email()
content_parser.encoding_cursor.close()
content_parser.mydb.close()
content_parser.logger.info("Processed PTS {} examples in {} seconds".format(
    len(unprocessed_data),
    time.time() - start))

예제 #3

파일 보기

파일: yahoo_content_parser.py 프로젝트: garyhsu29/chinese_nlp

            prefix = ''
        content = prefix + '\n'.join(temp_content)  #.replace('。 ', '。\n')
        res_dict['news'] = html.unescape(content)
        return res_dict
    else:
        content_parser_1.logger.error(
            'Yahoo url: {} did not process properly'.format(url))
        content_parser.errors['process_empty_content_(rss_id)'].append(
            [rss_id, url])
        return


start = time.time()
content_parser_1 = ContentParser('Yahoo Source 1')
unprocessed_data_1 = content_parser_1.content_query()
content_parser_1.content_processor(unprocessed_data_1, yahoo_content_processor)
if content_parser_1.errors:
    content_parser_1.sent_error_email()
content_parser_1.encoding_cursor.close()
content_parser_1.mydb.close()
content_parser_1.logger.info(
    "Processed Yahoo Source 1 {} examples in {} seconds".format(
        len(unprocessed_data_1),
        time.time() - start))

start = time.time()
content_parser_2 = ContentParser('Yahoo奇摩新聞')
unprocessed_data_2 = content_parser_2.content_query()
content_parser_2.content_processor(unprocessed_data_2, yahoo_content_processor)
if content_parser_2.errors:
    content_parser_2.sent_error_email()

예제 #4

파일 보기

파일: epoch_content_parser.py 프로젝트: garyhsu29/chinese_nlp

                    if a.get_text().strip() and 'www' in a['href']:
                        links.append(a['href'])
                        links_descs.append(a.get_text().strip())
            res_dict['news_related_url'] = links
            res_dict['news_related_url_desc'] = links_descs
    content = '\n'.join(temp_content).strip()
    if content:
        res_dict['news'] = html.unescape(content)

    if not res_dict or 'news' not in res_dict:
        
        content_parser.logger.error('Epoch url: {} did not process properly'.format(url))
        content_parser.errors['process_error_(rss_id)'].append([rss_id, url])
        return

    return res_dict




content_parser = ContentParser('大紀元')
# Query the data with source name
unprocessed_data = content_parser.content_query()

content_parser.content_processor(unprocessed_data, epoch_content_processor)
if content_parser.errors:
    content_parser.sent_error_email()
content_parser.encoding_cursor.close()
content_parser.mydb.close()
content_parser.logger.info("Processed Epoch {} examples in {} seconds".format(len(unprocessed_data), time.time() - start))

예제 #5

파일 보기

파일: newstalk_content_parser.py 프로젝트: garyhsu29/chinese_nlp

            for a in a_tags:
                if len(a):
                    if a['href'] == '#':
                        continue
                    if a.get_text().strip() and 'www' in a['href']:
                        links.append(a['href'])
                        links_descs.append(html.unescape(a.get_text().strip()))
            res_dict['news_related_url'] = links
            res_dict['news_related_url_desc'] = links_descs
    content = '\n'.join(temp_content).strip()
    if content:
        res_dict['news'] = html.unescape(content)

    if not res_dict or 'news' not in res_dict:
        content_parser.logger.error('NewsTalk url: {} did not process properly'.format(url))
        content_parser.errors['process_empty_content_(rss_id)'].append([rss_id, url])
        return
        
    return res_dict

content_parser = ContentParser('新頭殼要聞')
# Query the data with source name
unprocessed_data = content_parser.content_query()

content_parser.content_processor(unprocessed_data, newstalk_content_processor)
if content_parser.errors:
    content_parser.sent_error_email()
content_parser.encoding_cursor.close()
content_parser.mydb.close()
content_parser.logger.info("Processed NewsTalk {} examples in {} seconds".format(len(unprocessed_data), time.time() - start))

예제 #6

파일 보기

파일: pchome_content_parser.py 프로젝트: garyhsu29/chinese_nlp

                date_res = d2.strftime(db_date_format)
                res_dict['published_date'] = date_res
            except Exception as e2:
                print(e2)
                content_parser.logger.info('PChome date error {}, URL: {}'.format(e2, url))

    article_body_tag = soup.find('div', attrs = {'calss':'article_text'})
    if article_body_tag:
        content = article_body_tag.text.strip()
        a_tags = article_body_tag.find_all('a')
        if content:
            content = re.sub('(\n)+', '\n', html.unescape(content))
            content = re.sub(r'(相關新聞[\s\S]+)', '', content)
            res_dict['news'] = html.unescape(content)
            
    if not res_dict or 'news' not in res_dict:
        content_parser.logger.error('PChome url: {} did not process properly'.format(url))
        content_parser.errors['process_empty_content_(rss_id)'].append([rss_id, url])
        return
        
    return res_dict
content_parser = ContentParser('PCHOME')
# Query the data with source name
unprocessed_data = content_parser.content_query()
content_parser.content_processor(unprocessed_data, pchome_content_processor)
if content_parser.errors:
    content_parser.sent_error_email()
content_parser.encoding_cursor.close()
content_parser.mydb.close()
content_parser.logger.info("Processed PChome {} examples in {} seconds".format(len(unprocessed_data), time.time() - start))