Beispiel #1
0
def extract(input,output,fields,pretty_print=False,xmlns='http://www.mediawiki.org/xml/export-0.8/',parse_text=None):
    '''
    input : jawiki-latest-pages-articles.xml のファイルパスまたはファイルオブジェクト
    output: 出力ファイルパス
    pretty_print: True なら 出力XML をインデント等整形する。
    '''
    if isinstance(input,basestring) and input.endswith(u'.bz2'):
        with bz2.BZ2File(input) as r:
            write(parse(r,fields=fields,xmlns=xmlns,parse_text=parse_text),output,u'mediawiki',pretty_print=pretty_print)
    else:
        write(parse(input,fields=fields,xmlns=xmlns,parse_text=parse_text),output,u'mediawiki',pretty_print=pretty_print)
#!/usr/bin/python
#coding:utf8
# Created:  2013-11-12
#

from kics.JaWikiArticlesXMLParser import parse
from kics.LXML import write

# input.xml を生成。
write(parse(u'head9729',mode=u'xml',fields=set([u'id',u'text'])),'input.xml',u'mediawiki',pretty_print=True)

from kics.JaWikiArticlesTextParser import parse as parse_text

write(parse(u'head9729',mode=u'xml',fields=set([u'id',u'text']),parse_text=parse_text),'output.xml',u'mediawiki',pretty_print=True)