Python MongoUtilities 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utils

클래스/타입: MongoUtilities

hotexamples.com에서의 예제들: 4

Python MongoUtilities - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utils.MongoUtilities에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

insert_documents(2)

get_all_documents(1)

get_uncrawled_docs(1)

update_document(1)

예제 #1

파일 보기

파일: get_icd_urls.py 프로젝트: azhar3339/NLP

class GetIcdUrls(object):

    def __init__(self):
        self.output_collection = 'disease_categories'
        self.crawler = Crawler()
        self.mongo = MongoUtilities()

    def run(self):
        """
        Collects the urls of all the categories listed on this page:
        https://en.wikipedia.org/wiki/ICD-10
        :return: returns nothing. Inserts documents into disease_categories
        """
        # Get html content
        soup = self.crawler.get_html_content(self.crawler.icd_url)
        # Extract category and urls
        categories = self.crawler.get_icd_category_urls(soup)
        # Write to Mongo DB
        self.mongo.insert_documents(self.output_collection, categories)

예제 #2

파일 보기

파일: create_medical_corpus.py 프로젝트: azhar3339/NLP

class CreateMedicalCorpus(object):

    def __init__(self):
        # TODO: read the collection names from config file
        self.input_collection = 'disease_categories'
        self.output_collection = 'medical_corpus'
        self.mongo_utilities = MongoUtilities()
        self.crawler = Crawler()

    def get_all_urls(self):
        """
        Collects all the URLs from each disease category from disease_categories collection.
        The column 'crawled' is set to 'No' for all the documents.
        :return: returns nothing, inserts documents into medical_corpus
        """

        docs = self.mongo_utilities.get_all_documents(self.input_collection)
        for doc in docs:
            print doc['category']
            soup = self.crawler.get_html_content(doc["url"])
            urls = self.crawler.get_sub_category_urls(soup, doc['category'])
            self.mongo_utilities.insert_documents(self.output_collection, urls)

    def get_content(self):
        """
        Crawls the actual content for each disease in medical corpus.
        For each crawled document the column 'crawled' is set to 'Yes'
        :return: returns nothing, modifies documents in medical_corpus
        """

        docs = self.mongo_utilities.get_uncrawled_docs()
        count = 0
        for doc in docs:
            count += 1
            print count
            url = doc['url']
            text = ""
            soup = self.crawler.get_html_content(url)
            # Get all the paragraph tags
            for p_tag in soup.findAll('p'):
                text += '<para start>'+p_tag.text+'<para end>'

            self.mongo_utilities.update_document(self.output_collection, {
                '$set': {
                    'content': text,
                    'crawled': 'Yes'
                }
            }, doc['_id'])

예제 #3

파일 보기

파일: get_icd_urls.py 프로젝트: azhar3339/NLP

 def __init__(self):
     self.output_collection = 'disease_categories'
     self.crawler = Crawler()
     self.mongo = MongoUtilities()

예제 #4

파일 보기

파일: create_medical_corpus.py 프로젝트: azhar3339/NLP

 def __init__(self):
     # TODO: read the collection names from config file
     self.input_collection = 'disease_categories'
     self.output_collection = 'medical_corpus'
     self.mongo_utilities = MongoUtilities()
     self.crawler = Crawler()