Python z2hの例

プログラミング言語: Python

名前空間/パッケージ名: jctconv

メソッド/関数: z2h

hotexamples.comのコード掲載数: 6

Python z2h - 6件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのjctconv.z2hの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: test_jctconv.py プロジェクト: pombredanne/jctconv

def test_z2h():
    assert_equal(jctconv.z2h('ティロフィナーレ'), 'ﾃｨﾛﾌｨﾅｰﾚ')
    assert_equal(jctconv.z2h('ティロフィナーレ', ignore='ィ'), 'ﾃィﾛﾌィﾅｰﾚ')
    _compare(partial(jctconv.z2h, kana=True), FULL_KANA, HALF_KANA)
    _compare(partial(jctconv.z2h, ascii=True), FULL_ASCII, HALF_ASCII)
    _compare(partial(jctconv.z2h, digit=True), FULL_DIGIT, HALF_DIGIT)
    assert_equal(jctconv.z2h(_concat(FULL_KANA, FULL_ASCII, FULL_DIGIT),
                             ascii=True, digit=True, kana=True),
                 _concat(HALF_KANA, HALF_ASCII, HALF_DIGIT))

コード例 #2

ファイルを表示

ファイル: test_jctconv.py プロジェクト: cuusoo/jctconv

def test_z2h():
    assert_equal(jctconv.z2h('ティロフィナーレ'), 'ﾃｨﾛﾌｨﾅｰﾚ')
    assert_equal(jctconv.z2h('ティロフィナーレ', ignore='ィ'), 'ﾃィﾛﾌィﾅｰﾚ')
    _compare(partial(jctconv.z2h, kana=True), FULL_KANA, HALF_KANA)
    _compare(partial(jctconv.z2h, ascii=True), FULL_ASCII, HALF_ASCII)
    _compare(partial(jctconv.z2h, digit=True), FULL_DIGIT, HALF_DIGIT)

    for ascii in (True, False):
        for digit in (True, False):
            for kana in (True, False):
                assert_equal(
                    jctconv.z2h(_concat(FULL_KANA if kana else HALF_KANA,
                                        FULL_ASCII if ascii else HALF_ASCII,
                                        FULL_DIGIT if digit else HALF_DIGIT),
                                ascii=ascii, digit=digit, kana=kana),
                    _concat(HALF_KANA, HALF_ASCII, HALF_DIGIT))

コード例 #3

ファイルを表示

def convert_two_digit(string):
    '''convert two full-width digit into half width digit.'''

    patterns = re.findall(r'[^０-９][０-９]{2}[^０-９]', string)
    patterns += re.findall(r'^[０-９]{2}[^０-９]', string)
    for p in patterns:
        string = re.sub(p, jctconv.z2h(p, digit=True), string)
    return string

コード例 #4

ファイルを表示

ファイル: extract_wikipedia_html.py プロジェクト: hiyuricu/extract_feature_for_paraphrase

# -*- coding: utf-8 -*-

import urllib2, time, sys, jctconv, pickle

#wikipediaのhtmlをクロールします
i = 0
f = open("synonym_dict.txt")
f2 = open("synonym_dict2.txt", "w")
synonym_dict = pickle.load(f)

for abb_pair_list in open(sys.argv[1], "r"):
    i += 1
    print i
    #入力するcsvファイルによってtarget_titleが何番目のフィールドを参照するか変わるので毎回添字をかえる必要がある
    target_title_decode = abb_pair_list.strip().split(",")[1].decode("utf-8")
    target_title_encode = jctconv.z2h(target_title_decode, kana=False, digit=True, ascii=True).encode("utf-8")
    if not target_title_encode in synonym_dict:
        print "new_key"
        url_text = "http://ja.wikipedia.org/wiki/%s" % target_title_encode
        try:
            url_html = urllib2.urlopen(url_text).read()
            synonym_dict[target_title_encode] = url_html
            print "url_succeed"
            time.sleep(10.0)
        except:
            synonym_dict[target_title_encode] = ""
            time.sleep(10.0)
            continue

pickle.dump(synonym_dict, f2)
f.close()

コード例 #5

ファイルを表示

ファイル: tokenize.py プロジェクト: pombredanne/nlp-3

    if despacing:
        # e.g. use case: before japanese tokenization, remove suspect white space
        # note that wide comma normalization occurs here
        despace(line)
        if verbose>1:
            sys.stderr.write('despace '+repr(lno)+": "+line.encode('utf-8')+"\n");

    if widecase:
        # wide-casing for specified classes
        line = h2z(line,kana=jctkana,digit=jctsym,ascii=jctalpha)
        if verbose>1:
            sys.stderr.write('wide '+repr(lno)+": "+line.encode('utf-8')+"\n");

    if narrowcase:
        # narrow-casing for specified classes
        line = z2h(line,kana=jctkana,digit=jctsym,ascii=jctalpha)
        if verbose>1:
            sys.stderr.write('narrow '+repr(lno)+": "+line.encode('utf-8')+"\n");


    # tokenize using pipe
    
    ptok.sendline(line.encode('utf-8'))
    if verbose>1:
        sys.stderr.write('reading...\n')
    line = ptok.readline()
    if not line:
        sys.stderr.write('tokenizer EOF unexpected at line '+repr(lno)+"\n")
        break
    if verbose>1:
        sys.stderr.write('tokenized '+repr(lno)+": "+line);

コード例 #6

ファイルを表示

ファイル: test_jctconv.py プロジェクト: hachibeeDI/jctconv

def test_z2h():
    assert_equal(jctconv.z2h(u'ティロフィナーレ'), u'ﾃｨﾛﾌｨﾅｰﾚ')
    assert_equal(jctconv.z2h(FULL_KANA), HALF_KANA)
    assert_equal(jctconv.z2h(FULL_ASCII, mode='ASCII'), HALF_ASCII)
    assert_equal(jctconv.z2h(FULL_DIGIT, mode='DIGIT'), HALF_DIGIT)