Installation

MetadataParser is a python module for pulling metadata out of web documents.

It requires BeautifulSoup , and was largely based on Erik River's opengraph module ( https://github.com/erikriver/opengraph ).

I needed something more aggressive than Erik's module , so had to fork.

Installation

pip install metadata_parser

Features

it pulls as much metadata out of a document as possible
you can set a 'strategy' for finding metadata ( ie, only accept opengraph or page attributes )

Notes

This requires BeautifulSoup 3 or 4. If it can import bs4 it does, otherwise it tries BeautifulSoup (3)
For speed, it will instantiate a BeautifulSoup parser with lxml , and fall back to 'none' (the internal pure python) if it can't load lxml

The default 'strategy' is to look in this order:: og,dc,meta,page og = OpenGraph dc = DublinCore meta = metadata page = page elements

You can specify a strategy as a comma-separated list of the above.

The only 2 page elements currently supported are:: <title>VALUE</title> -> metadata['page']['title'] <link rel="canonical" href="VALUE"> -> metadata['page']['link']

Usage

From an URL

>>> import metadata_parser >>> page = metadata_parser.MetadataParser(url="http://www.cnn.com") >>> print page.metadata >>> print page.get_field('title') >>> print page.get_field('title',strategy='og') >>> print page.get_field('title',strategy='page,og,dc')

From HTML

>>> HTML = """<here>""" >>> page = metadata_parser.MetadataParser(html=HTML) >>> print page.metadata >>> print page.get_field('title') >>> print page.get_field('title',strategy='og') >>> print page.get_field('title',strategy='page,og,dc')

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
metadata_parser		metadata_parser
CHANGELOG.txt		CHANGELOG.txt
README.rst		README.rst
README.txt		README.txt
demo.py		demo.py
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

metadata_parser

metadata_parser

CHANGELOG.txt

CHANGELOG.txt

README.rst

README.rst

README.txt

README.txt

demo.py

demo.py

setup.py

setup.py

Repository files navigation

Installation

Features

Notes

Usage

About

Releases

Packages

Languages

mkai/metadata_parser

Folders and files

Latest commit

History

Repository files navigation

Installation

Features

Notes

Usage

About

Resources

Stars

Watchers

Forks

Languages