Python Document.hash_url примеры использования

Язык программирования: Python

Пространство имен/Пакет: models

Класс/Тип: Document

Метод/Функция: hash_url

Примеров на hotexamples.com: 2

Python Document.hash_url - 2 примера найдено. Это лучшие примеры Python кода для models.Document.hash_url, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

save(30)

Document(30)

objects(10)

filename(4)

name(3)

add_component(3)

serialize(3)

all(3)

doc_type(3)

delete(3)

isover18s(2)

get_by_id(2)

file(2)

price(2)

query(2)

hash_url(2)

usersname(2)

description(2)

set_user_from_request(2)

category(2)

Image(2)

_term_frequency(2)

type(2)

by_property(2)

id(2)

thumbnail(1)

path(1)

image(1)

insert(1)

user_name(1)

specific_instance(1)

issue(1)

urlencfilename(1)

last_change(1)

select_file(1)

text(1)

to_dbref(1)

title(1)

rename_shab(1)

path_html(1)

path_pdf(1)

set_default_user(1)

the_doc(1)

print_document(1)

sample(1)

priv(1)

time_published(1)

read(1)

rename_prev(1)

pdf_file(1)

Пример #1

Показать файл

Файл: crawler.py Проект: zaim/bukutip

def parse_bookxcess_html(document, headers, filename=None):
    """Parses Bookxcess book listings page
    """
    soup    = BeautifulSoup(document.contents)
    links   = soup.findAll(['a', 'area'], href=True)
    parsers = {
        '.htm': parse_bookxcess_html,
        '.html': parse_bookxcess_html,
        '.pdf': parse_bookxcess_pdf
    }
    urls = {}

    for link in links:
        url = link['href'].strip()
        if not url.startswith('http://'):
            url = BOOKXCESS + url
        urlp = urlsplit(url)
        path = urlp.path.lower()
        args = {
            "filename": basename(path)
        }
        ext = splitext(path)[1]
        if ext in parsers:
            parser = parsers[ext]
            urls[url] = (parser, args)

    for url, (parser, args) in urls.items():
        task_name = 'download-%s' % Document.hash_url(url)
        logging.info('parse_bookxcess_html: downloading %s in task %s' % (url, task_name))
        try:
            deferred.defer(download_page, url, callback=parser, args=args,
                           _name=task_name, _queue='downloader')
        except (taskqueue.TaskAlreadyExistsError, taskqueue.TombstonedTaskError):
            pass

Пример #2

Показать файл

Файл: crawler.py Проект: zaim/bukutip

    def get(self):
        self.response.headers['content-type'] = 'text/plain'

        if self.request.get('dbg'):
            self.debug()
        else:
            source = self.request.get('source')
            name = self.request.get('name')
            urls, call = None, None

            callbacks = {
                'mph_rss': parse_mph_rss,
                'bookxcess_pdf': parse_bookxcess_pdf
            }

            TASKS = dict(cron.tasks)

            if source in TASKS:
                urlset = dict(TASKS[source]['urls'])
                if name in urlset:
                    urls = urlset[name]
                    call = TASKS[source]['callback']
                    call = callbacks.get(call, None)

            if urls and call:
                for url in urls:
                    urlp = urlsplit(url)
                    path = urlp.path.lower()
                    args = {
                        "_queue": 'downloader',
                        "_name": 'download-%s' % Document.hash_url(url),
                        "callback": call,
                        "args": {
                            "filename": basename(path)
                        }
                    }
                    self.response.out.write("%s\n" % url)
                    try:
                        deferred.defer(download_page, url, **args)
                    except (taskqueue.TaskAlreadyExistsError, taskqueue.TombstonedTaskError):
                        pass
            else:
                self.error(500)
                self.response.out.write('No URLs or callback found: %s, %s' % (urls, call))