Python PDFParser.read_n_from Exemples

Langage de programmation: Python

Espace de nommage/Pack: pdfminer.pdfparser

Class/Type: PDFParser

Méthode/Fonction: read_n_from

Exemples au hotexamples.com: 2

Python PDFParser.read_n_from - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de pdfminer.pdfparser.PDFParser.read_n_from extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

PDFParser(30)

close(19)

flush(2)

process_page(2)

add_argument(1)

nextline(1)

nexttoken(1)

output_opcodes_json(1)

parse(1)

parse_args(1)

parse_document(1)

read_from_end(1)

read_n_from(1)

reset(1)

Méthodes fréquemment utilisées

PDFParser (30)

close (19)

flush (2)

process_page (2)

add_argument (1)

nextline (1)

nexttoken (1)

output_opcodes_json (1)

parse (1)

parse_args (1)

Méthodes fréquemment utilisées

parse_document (1)

read_from_end (1)

read_n_from (1)

reset (1)

Exemple #1

0

Afficher le fichier

Fichier : xml_creator.py Projet : M31MOTH/pdfrankenstein

def parse(self): fp = file(self.pdf, 'rb') parser = PDFParser(fp, dbg=self.debug) doc = PDFDocument(parser, dbg=self.debug) # extract blob of data after EOF (if it exists) if doc.found_eof and doc.eof_distance > 3: self.bin_blob = parser.read_from_end(doc.eof_distance) res = '<pdf>' visited = set() # keep track of the objects already visited for xref in doc.xrefs: for objid in xref.get_objids(): if objid in visited: continue visited.add(objid) try: obj = doc.getobj(objid) res += '<object id="' + str(objid) + '">\n' res += self.dump(obj) res += '\n</object>\n\n' except PDFObjectNotFound as e: mal_obj = parser.read_n_from(xref.get_pos(objid)[1], 4096) mal_obj = mal_obj.replace('<', '0x3C') res += '<object id="%d" type="malformed">\n%s\n</object>\n\n' % ( objid, mal_obj) self.takenote(self.malformed, 'objects', objid) except Exception as e: res += '<object id="%d" type="exception">\n%s\n</object>\n\n' % ( objid, e.message) fp.close() res += self.dumptrailers(doc) res += '</pdf>' self.xml = res self.errors = doc.errors self.bytes_read = parser.BYTES return

Exemple #2

0

Afficher le fichier

Fichier : xml_creator.py Projet : toejamhoney/thisneedsacoolname

def parse (self): fp = file(self.pdf, 'rb') parser = PDFParser(fp, dbg=self.debug) doc = PDFDocument(parser, dbg=self.debug) #extract blob of data after EOF (if it exists) if doc.found_eof and doc.eof_distance > 3: self.bin_blob = parser.read_from_end(doc.eof_distance) res = '<pdf>' visited = set() #keep track of the objects already visited for xref in doc.xrefs: for objid in xref.get_objids(): if objid in visited: continue if objid == 21 or objid == 67: print objid visited.add(objid) try: obj = doc.getobj(objid) res += '<object id="' + str(objid) + '">\n' res += self.dump(obj) res += '\n</object>\n\n' except PDFObjectNotFound as e: mal_obj = parser.read_n_from(xref.get_pos(objid)[1], 4096) mal_obj = mal_obj.replace('<', '0x3C') res += '<object id="%d" type="malformed">\n%s\n</object>\n\n' % (objid, mal_obj) self.takenote(self.malformed, 'objects', objid) except Exception as e: res += '<object id="%d" type="exception">\n%s\n</object>\n\n' % (objid, e.message) fp.close() res += self.dumptrailers(doc) res += '</pdf>' self.xml=res self.errors = doc.errors self.bytes_read = parser.BYTES return