Exemplo n.º 1
0
"""

from StringIO import StringIO
from urllib2 import urlopen
from zipfile import ZipFile

from librarian.dcparser import BookInfo
from librarian import text

from lesmianator import Lesmianator


XML_FILES = "http://www.wolnelektury.pl/media/packs/xml-all.zip"


if __name__ == '__main__':
    poet = Lesmianator()

    xml_zip = ZipFile(StringIO(urlopen(XML_FILES).read()))
    for filename in xml_zip.namelist():
        print filename
        info = BookInfo.from_file(xml_zip.open(filename))

        if u'Wiersz' in info.genres:
            output = StringIO()
            text.transform(xml_zip.open(filename), output, False, ('raw-text',))
            poet.add_text(output.getvalue())

    poet.save()

Exemplo n.º 2
0
Inicjalizuje bazę danych Leśmianatora na podstawie API Wolnych Lektur.

Skrypt za pomocą API wybiera wszystkie sonety Adama Mickiewicza,
pobiera ich treść w formacie TXT i przekazuje ją do analizy Leśmianatorowi.

"""

import json
from urllib2 import urlopen

from lesmianator import Lesmianator


API_BOOKS = "http://www.wolnelektury.pl/api/authors/adam-mickiewicz/genres/sonet/books"


def book_txt(url):
    book = json.load(urlopen(url))
    return book['txt']


if __name__ == '__main__':
    poet = Lesmianator()
    for book in json.load(urlopen(API_BOOKS)):
        print book['title']
        text_url = book_txt(book['href'])
        if text_url:
            poet.add_txt_file(urlopen(text_url))
    poet.save()

Exemplo n.º 3
0
#

"""
Inicjalizuje bazę danych Leśmianatora z pobranych plików TXT.

Skrypt pobiera paczkę plików TXT z utworami lirycznymi
i przekazuje ich treść Leśmianatorowi do analizy.

"""

from StringIO import StringIO
from urllib2 import urlopen
from zipfile import ZipFile

from lesmianator import Lesmianator


TXT_FILES = "http://www.wolnelektury.pl/media/packs/txt-liryka.zip"


if __name__ == '__main__':
    txt_zip = ZipFile(StringIO(urlopen(TXT_FILES).read()))

    poet = Lesmianator()
    for filename in txt_zip.namelist():
        print filename
        poet.add_txt_file(txt_zip.open(filename))

    poet.save()