main.py

from asyncio import Queue, ensure_future, get_event_loop, wait_for
from cgi import parse_header
from urllib.parse import unquote, urldefrag, urljoin, urlparse

from aiohttp import ClientSession
from biplist import writePlist
from cssutils import getUrls, parseString
from lxml import html
import http.server
import socketserver
import asyncio
#from threading import Thread
import multiprocessing

from config import (ACCEPT_HEADERS, ADDITIONAL_URLS, CHANGE_DOMAIN_FROM,
                    CHANGE_DOMAIN_TO, OUTPUT_FILENAME, TARGET_URL,
                    TIMEOUT, log)


async def crawler(client, url, archive):
    log.debug("Crawling url: {}".format(url))
    headers = ACCEPT_HEADERS
    headers['Referer'] = archive['top']
    response = await client.get(url, headers=headers)
    if response.status != 200:
        raise Exception("got response code other than 200 for url: {} - Response code: {}".format(url, response.status))
    else:
        data = await response.read()
        content_type, params = parse_header(response.headers['content-type'])
        if CHANGE_DOMAIN_FROM and CHANGE_DOMAIN_TO:
            wrUrl = url.replace(CHANGE_DOMAIN_FROM, CHANGE_DOMAIN_TO)
        else:
            wrUrl = url
        item = {
            "WebResourceData": data,
            "WebResourceMIMEType": content_type,
            "WebResourceURL": wrUrl
        }
        if 'charset' in params:
            item['WebResourceTextEncodingName'] = params['charset']
        archive['items'].append(item)


async def scrape(url, additionalUrls = []):
    print("scrape")
    client = ClientSession()
    url_queue = []

    archive = {
        'top': url,
        'items': []
    }
    url_queue.append(url)

    for aUrl in additionalUrls:
        #print("adding additional url: " + aUrl)
        url_queue.append(aUrl)
        

    for url in url_queue:
        try:
            await crawler(client, url, archive)
        except Exception as exc:
            log.warning('Exception {}'.format(exc), exc_info=False)
        #exc = future.exception()
        #if exc:
        #    log.error('Worker finished with error: {} '.format(exc), exc_info=True)

    await client.close()

    webarchive = {
        'WebMainResource': archive['items'].pop(0),
        'WebSubresources': archive['items']
    }

    writePlist(webarchive, OUTPUT_FILENAME)

    print("finished", OUTPUT_FILENAME)


#async def serve_directory():
def serve_directory():
    PORT = 8000
    Handler = http.server.SimpleHTTPRequestHandler
    with socketserver.TCPServer(("", PORT), Handler) as httpd:
        print("Serving at port", PORT)
        httpd.serve_forever()


if __name__ == '__main__':
    loop = asyncio.new_event_loop()
   
    #t1 = loop.create_task(serve_directory())

    #thread = Thread(target = serve_directory, args = ())
    #thread.start()
    proc = multiprocessing.Process(target = serve_directory, args=())
    proc.start()
    
    
    #additionalUrls = ADDITIONAL_URLS.split(";")
    additionalUrls = list(filter(None, ADDITIONAL_URLS.split(";"))) # remove empty urls from list
    loop.run_until_complete(scrape(TARGET_URL, additionalUrls))

    print("done - joining now")
    proc.terminate()  # sends a SIGTERM
    print("done")