Python soup_collector 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: soup

메소드/함수: soup_collector

hotexamples.com에서의 예제들: 9

Python soup_collector - 9개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 soup.soup_collector에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: data_collect.py 프로젝트: 0x0is1/glimmer

def data_collector(sample_id, sample_type, report_type, doc_type, req):

    if doc_type == 'html':
        #do stuff
        if req == "intro":
            return intro(sample_id, sample_type)
        if req == "name":
            return name_collector(sample_id, sample_type)
        if req == "gene":
            return feature_gene(sample_id, sample_type)
        if req == "stem-loop":
            return feature_stem_loop(sample_id, sample_type)
        if req == "peptide":
            return feature_peptide(sample_id, sample_type)
        if req == "cds":
            return feature_cds(sample_id, sample_type)
        if req == "source":
            return feature_source(sample_id, sample_type)
        if req == "comment":
            return comment(sample_id, sample_type)
        if req == "sequence":
            return chain_sequence(sample_id, sample_type)
        if req == "all":
            return soup_collector(sample_id, sample_type).text
        else:
            print('Invalid parameter supplied!')

    else:
        url = "https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id=" + sample_id + "&db=" + sample_type + "&report=" + report_type + "&extrafeat=null&conwithfeat=on&retmode=" + doc_type + "&tool=portal&maxdownloadsize=1000000"
        data = requests.get(url)
        soup = bs(data.content, 'html.parser')
        for script in soup(["script", "style"]):
            script.decompose()
        return soup, url

예제 #2

파일 보기

파일: stem_loop.py 프로젝트: 0x0is1/glimmer

 def stem(spl_id_dup, spl_type_dup):
     soup = soup_collector(spl_id, spl_type)
     sample_info_name = name_collector(spl_id, spl_type)
     iterator = 0
     while True:
         stem_loop = soup.find('span', {"id": "feature_" + sample_info_name + "_stem_loop_" + str(iterator)})   
         if stem_loop == None:
             break
         print(stem_loop.text)
         iterator += 1

예제 #3

파일 보기

파일: sequence.py 프로젝트: 0x0is1/glimmer

 def sequence(spl_id_dup, spl_type_dup):
     soup = soup_collector(spl_id, spl_type)
     sample_info_name = name_collector(spl_id, spl_type)
     iterator = 1
     while True:
         source = soup.find('span',
                            {"id": sample_info_name + "_" + str(iterator)})
         if source == None:
             break
         iterator += 60
         print(iterator, source.text)

예제 #4

파일 보기

 def gene(spl_id_dup, spl_type_dup):
     soup = soup_collector(spl_id, spl_type)
     sample_info_name = name_collector(spl_id, spl_type)
     iterator = 0
     while True:
         gene = soup.find('span', {
             "id":
             "feature_" + sample_info_name + "_gene_" + str(iterator)
         })
         if gene == None:
             break
         print(gene.text)
         iterator += 1

예제 #5

파일 보기

파일: cds.py 프로젝트: 0x0is1/glimmer

 def cds(spl_id_dup, spl_type_dup):
     soup = soup_collector(spl_id, spl_type)
     sample_info_name = name_collector(spl_id, spl_type)
     iterator = 0
     while True:
         cds = soup.find('span', {
             "id":
             "feature_" + sample_info_name + "_CDS_" + str(iterator)
         })
         if cds == None:
             break
         print(cds.text)
         iterator += 1

예제 #6

파일 보기

def name_collector(spl_id, spl_type):
    soup = soup_collector(spl_id, spl_type)
    sample_info_type = soup.findAll('a')

    #unwanted till now START
    try:
        sample_info_name1 = sample_info_type[0].get('name').split(
            '_')[1].strip()
        sample_info_name2 = sample_info_type[0].get('name').split(
            '_')[2].strip()
        sample_info_name = sample_info_name1 + "_" + sample_info_name2
    except:
        sample_info_name = sample_info_type[0].get('name').split(
            '_')[1].strip()
    return sample_info_name

예제 #7

파일 보기

파일: peptide.py 프로젝트: 0x0is1/glimmer

 def peptide(spl_id_dup, spl_type_dup):
     soup = soup_collector(spl_id, spl_type)
     sample_info_name = name_collector(spl_id, spl_type)
     iterator = 0
     while True:
         source = soup.find(
             'span', {
                 "id":
                 "feature_" + sample_info_name + "_mat_peptide_" +
                 str(iterator)
             })
         if source == None:
             break
         print(source.text)
         iterator += 1

예제 #8

파일 보기

파일: intro.py 프로젝트: 0x0is1/glimmer

def intro(spl_id, spl_type):
    soup = soup_collector(spl_id, spl_type)
    sample_info_name = name_collector(spl_id, spl_type)
    
    try:
        raw_intro = soup.findAll('a', {"name":'comment_' + sample_info_name})[0]        
        intro7 = raw_intro.previousSibling
        intro6 = raw_intro.previousSibling.previousSibling
        intro5 = raw_intro.previousSibling.previousSibling.previousSibling
        intro4 = raw_intro.previousSibling.previousSibling.previousSibling.previousSibling
        intro3 = raw_intro.previousSibling.previousSibling.previousSibling.previousSibling.previousSibling
        intro2 = raw_intro.previousSibling.previousSibling.previousSibling.previousSibling.previousSibling.previousSibling
        intro1 = raw_intro.previousSibling.previousSibling.previousSibling.previousSibling.previousSibling.previousSibling.previousSibling
        intro = str(intro1) + str(intro2) + str(intro3) + str(intro4) + str(intro5) + str(intro6) + str(intro7)
        return intro 
    except:
        pass

예제 #9

파일 보기

def comment(spl_id, spl_type):
    soup = soup_collector(spl_id, spl_type)
    sample_info_name = name_collector(spl_id, spl_type)

    try:
        raw_intro = soup.find('a',
                              {"href": 'https://www.ncbi.nlm.nih.gov/RefSeq/'})
        intro7 = raw_intro.nextSibling
        intro6 = raw_intro.nextSibling.nextSibling
        #intro5 = raw_intro.nextSibling.nextSibling.nextSibling
        #intro4 = raw_intro.nextSibling.nextSibling.nextSibling.nextSibling
        #intro3 = raw_intro.nextSibling.nextSibling.nextSibling.nextSibling.nextSibling
        #intro2 = raw_intro.nextSibling.nextSibling.nextSibling.nextSibling.nextSibling.nextSibling
        #intro1 = raw_intro.nextSibling.nextSibling.nextSibling.nextSibling.nextSibling.nextSibling.nextSibling
        intro = str(intro7) + str(intro6)
        return intro
    except:
        print('Oops something went wrong...')