#!/usr/bin/python #coding:utf8 # Created: 2013-11-10 # import os from kics.OS import scrabs path = 'book/sample.txt' # このファイルからの相対パス print os.path.abspath(path) # このファイルを実行したディレクトリからの相対パスが path である絶対パスが得られる。 print scrabs(__file__,path) # このファイルからの相対パスが path である 絶対パスが得られる。
#!/usr/bin/python #coding:utf8 # Created: 2013-11-11 # import sys sys.path.append('..') from Parser import parse from kics.OS import scrabs path = scrabs(__file__,u'../doc/head9729') select_dict = { u'id' : lambda page: int(page.id)%2, (u'ns',u'redirect') : lambda page: page.ns == u'0' and page.redirect is None, } parse_text = lambda text: text.strip() for page in parse(path,select_dict,parse_text,mode='tuple'): print u'id:{0}, title:{1}'.format(page.id,page.title) fields = set([u'id',u'title']) for page in parse(path,select_dict,parse_text,mode='tuple',fields=fields): print u'id:{0}, title:{1}, text:{2}'.format(page.id,page.title,page.text)
#coding:utf8 ''' mediawiki をパースするスクリプト ''' import mwparserfromhell from mwparserfromhell.wikicode import Argument,Comment,ExternalLink,HTMLEntity,Heading,Tag,Template,Text,Wikilink import os from kics.OS import scrabs DIR = os.path.dirname(scrabs(__file__)) with open(os.path.join(DIR,'deletetag.txt')) as r: DELETETAGS = set(line.rstrip('\n').decode('utf8') for line in r) with open(os.path.join(DIR,'remaintag.txt')) as r: REMAINTAGS = set(line.rstrip('\n').decode('utf8') for line in r) def parse(text): ''' text : pageタグの中身 無視する要素 テンプレートパラメータ{{{foo}}} コメント <!-- foobar --> HTMLエンティティ テンプレート {{foo}} 無視しない要素 外部リンク [http://example.com/ Example] タイトルがあればそれに変換。なければ無視。 セクションタイトル == Foo == タイトルを抽出
#!/usr/bin/python #coding:utf8 # Created: 2013-11-06 from kics import Pickle from kics.OS import scrabs path = scrabs(__file__,'example.dmp') # 保存先 data = range(5) # 保存するデータ Pickle.save(data,path) # 保存 example.dmp が保存される data2 = Pickle.load(path) # 読込 print data == data2 # 元のデータと保存・読込したデータを比較