Esempi in Python per Crawler.Crawler

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ingestion.engine

Classe/tipologia: Crawler

Metodo/funzione: Crawler

Esempi su hotexamples.com: 3

Crawler.Crawler in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per ingestion.engine.Crawler.Crawler, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Crawler(3)

crawl(3)

save_to_json(2)

uniqueify(1)

Esempio n. 1

Mostra file

File: generate_index.py Progetto: afcarl/search_ingestion

def main(website, depth, production=True):
    staging = pickle.load(open("i14y_creds.pickle", "r"))
    website = "https://" + website
    if production:
        c = Crawler(website, int(depth))
    else:
        c = Crawler(website,
                    int(depth),
                    username=os.environ["staging_username"],
                    password=os.environ["staging_password"],
                    basic_auth_required=True)
    c.crawl()
    c.save_to_json()
    index = json.load(open('index.json', 'r'))
    #ToDo: Create a staging drawer and request a second search token
    for ind, elem in enumerate(index):
        i14yClient.create(ind,
                          elem['content'],
                          elem['url'],
                          elem['created'],
                          staging[0],
                          staging[1],
                          title=elem['title'],
                          description=elem['description'],
                          promote=elem['promote'],
                          language=elem['language'])

Esempio n. 2

Mostra file

def test_uniqueify():
    c = Crawler("https://www.vets.gov", 2)
    c.crawl()
    c.uniqueify()
    c.save_to_json()
    index = json.load(open('index.json', 'r'))
    urls = []
    unique_urls = []
    for ind, elem in enumerate(index):
        urls.append(elem['url'])
    unique_urls = list(set(urls))
    urls = [str(url) for url in urls]
    unique_urls = [str(url) for url in unique_urls]
    urls.sort()
    unique_urls.sort()
    print
    print "unique urls", len(unique_urls)
    print unique_urls
    print
    print
    print "urls", len(urls)
    print urls

    assert urls == unique_urls

Esempio n. 3

Mostra file

File: testing_script.py Progetto: afcarl/search_ingestion

from ingestion.engine import Crawler

c = Crawler("http://127.0.0.1:5000", 2, testing=True, protocol="http")
c.crawl()
print c.data
print c.urls