Python SynDevAdmin 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: DBGater.db_singleton_mongo

클래스/타입: SynDevAdmin

hotexamples.com에서의 예제들: 2

Python SynDevAdmin - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 DBGater.db_singleton_mongo.SynDevAdmin에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

db_access(2)

자주 사용되는 메소드들

db_access (2)

예제 #1

파일 보기

class RSCPaperSpider(scrapy.Spider):
    name = "RSC_Paper"

    http_user = '******'
    http_pass = '******'

    db = SynDevAdmin.db_access()
    db.connect()
    col = db.collection('RSC')

    def start_requests(self):
        for doc in self.col.find({'HTML_Crawled': False}):
            request = SplashRequest(doc['Article_HTML_Link'],
                                    self.parse,
                                    args={'wait': 2})
            request.meta['DOI'] = doc['DOI']
            yield request

    def parse(self, response):
        try:
            html = response.css('div#wrapper').extract_first()
            if html:
                self.col.update({"DOI": response.meta['DOI']}, {
                    '$set': {
                        'HTML_Crawled': True,
                        "Paper_Content_HTML": html
                    }
                })
            else:
                self.col.update({"DOI": response.meta['DOI']}, {
                    '$set': {
                        'HTML_Crawled': False,
                        'Error_Msg': "HTML string is None"
                    }
                })
        except Exception as e:
            self.col.update(
                {"DOI": response.meta['DOI']},
                {'$set': {
                    'HTML_Crawled': False,
                    'Error_Msg': str(e)
                }})

예제 #2

파일 보기

    import urlparse
except ImportError:
    import urllib.parse as urlparse

__author__ = 'Ziqin (Shaun) Rong'
__maintainer__ = 'Ziqin (Shaun) Rong'
__email__ = '*****@*****.**'

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument("-j",
                        type=str,
                        help="ECS journal name, one of EEL, JES, JSS, SSL")
    args = parser.parse_args()

    db = SynDevAdmin.db_access()
    db.connect()
    issue_col = db.collection('{}_issue'.format(args.j))

    for doc in issue_col.find({"Scraped": False}):
        res = requests.get(doc["URL"])
        if res.status_code == 200:
            soup = BeautifulSoup(res.content, 'lxml')
            abstract_links = []
            for article in soup.select('.toc-cit'):
                abstract_link = article.find_all('a', {'rel': 'abstract'})
                if abstract_link:
                    abstract_links.append(
                        urljoin(doc["URL"], abstract_link[0].get('href')))
            issue_col.update(
                {"_id": doc["_id"]},