""" from StringIO import StringIO from urllib2 import urlopen from zipfile import ZipFile from librarian.dcparser import BookInfo from librarian import text from lesmianator import Lesmianator XML_FILES = "http://www.wolnelektury.pl/media/packs/xml-all.zip" if __name__ == '__main__': poet = Lesmianator() xml_zip = ZipFile(StringIO(urlopen(XML_FILES).read())) for filename in xml_zip.namelist(): print filename info = BookInfo.from_file(xml_zip.open(filename)) if u'Wiersz' in info.genres: output = StringIO() text.transform(xml_zip.open(filename), output, False, ('raw-text',)) poet.add_text(output.getvalue()) poet.save()
Inicjalizuje bazę danych Leśmianatora na podstawie API Wolnych Lektur. Skrypt za pomocą API wybiera wszystkie sonety Adama Mickiewicza, pobiera ich treść w formacie TXT i przekazuje ją do analizy Leśmianatorowi. """ import json from urllib2 import urlopen from lesmianator import Lesmianator API_BOOKS = "http://www.wolnelektury.pl/api/authors/adam-mickiewicz/genres/sonet/books" def book_txt(url): book = json.load(urlopen(url)) return book['txt'] if __name__ == '__main__': poet = Lesmianator() for book in json.load(urlopen(API_BOOKS)): print book['title'] text_url = book_txt(book['href']) if text_url: poet.add_txt_file(urlopen(text_url)) poet.save()
# """ Inicjalizuje bazę danych Leśmianatora z pobranych plików TXT. Skrypt pobiera paczkę plików TXT z utworami lirycznymi i przekazuje ich treść Leśmianatorowi do analizy. """ from StringIO import StringIO from urllib2 import urlopen from zipfile import ZipFile from lesmianator import Lesmianator TXT_FILES = "http://www.wolnelektury.pl/media/packs/txt-liryka.zip" if __name__ == '__main__': txt_zip = ZipFile(StringIO(urlopen(TXT_FILES).read())) poet = Lesmianator() for filename in txt_zip.namelist(): print filename poet.add_txt_file(txt_zip.open(filename)) poet.save()