Python get_files 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: bs_scrapers.get_files

메소드/함수: get_files

hotexamples.com에서의 예제들: 3

Python get_files - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 bs_scrapers.get_files.get_files에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def extract_info(soup):
    for link in soup.findAll("a"):
        if link.get("href") is None:
            continue
        if not link["href"].startswith(configs.web_path):
            continue
        print(link.get("href"))
        url = str(link["href"])
        name = url[url.rindex("/"):]
        # name = name[:name.rindex('.')]

        with open("url_name.txt", "a+") as output:
            # This isn't really needed, but it's nice to have when debug is True
            if url not in output.read():
                if configs.domain_included == True:
                    output.write(url + ", " + name.strip("/") + "\n")
                elif configs.domain_included == False:
                    output.write(configs.domain + url + ", " +
                                 name.strip("/") + "\n")
    print("Done")


try:
    os.remove("url_name.txt")
except FileNotFoundError:
    pass

extract_info(soup)
get_files(save_dir, configs.sleep_time, configs.debug)

예제 #2

파일 보기

        name = link.string
        name = str(name)
        if "None" in name:
            try:
                name_table = []
                for link_2 in soup.findAll("span"):
                    if "hyperlink" in str(link_2.get("class")):
                        name_table.append(link_2.string)
                name = name_table[0]
                # print(link)
            except KeyError:
                print("KeyError")
                pass
            # print("Else " + name )
        # name = name[:name.rindex('.')]
        with open("url_name.txt", "a") as output:
            if "https" in link["href"]:
                output.write(url + ", " + name.strip("/") + ".pdf" + "\n")
            else:
                # Uncomment following line if domain is not in href, and comment out line above
                output.write(domain + url + ", " + name.strip("/") + ".pdf" + "\n")
    print("Done")


try:
    os.remove("url_name.txt")
except FileNotFoundError:
    pass
extract_info(soup)
get_files(save_dir, sleep_time)

예제 #3

파일 보기

파일: list_pdf_extractor_v2.py 프로젝트: pdap-bot/Scrapers

import os
from bs4 import BeautifulSoup
import urllib
import re
import time
import sys
import configs
from pathlib import Path

p = Path(__file__).resolve().parents[3]
sys.path.insert(1, str(p) + "/common")
from bs_scrapers.get_files import get_files
from bs_scrapers.extract_info import extract_info

save_dir = "./data/"

if not os.path.exists(save_dir):
    os.makedirs(save_dir)

html_page = requests.get(configs.webpage).text
soup = BeautifulSoup(html_page, "html.parser")

url_name = []

try:
    os.remove("url_name.txt")
except FileNotFoundError:
    pass
extract_info(soup, configs)
get_files(save_dir, configs.sleep_time)