def extract(input,output,fields,pretty_print=False,xmlns='http://www.mediawiki.org/xml/export-0.8/',parse_text=None): ''' input : jawiki-latest-pages-articles.xml のファイルパスまたはファイルオブジェクト output: 出力ファイルパス pretty_print: True なら 出力XML をインデント等整形する。 ''' if isinstance(input,basestring) and input.endswith(u'.bz2'): with bz2.BZ2File(input) as r: write(parse(r,fields=fields,xmlns=xmlns,parse_text=parse_text),output,u'mediawiki',pretty_print=pretty_print) else: write(parse(input,fields=fields,xmlns=xmlns,parse_text=parse_text),output,u'mediawiki',pretty_print=pretty_print)
#!/usr/bin/python #coding:utf8 # Created: 2013-11-12 # from kics.JaWikiArticlesXMLParser import parse from kics.LXML import write # input.xml を生成。 write(parse(u'head9729',mode=u'xml',fields=set([u'id',u'text'])),'input.xml',u'mediawiki',pretty_print=True) from kics.JaWikiArticlesTextParser import parse as parse_text write(parse(u'head9729',mode=u'xml',fields=set([u'id',u'text']),parse_text=parse_text),'output.xml',u'mediawiki',pretty_print=True)