Python Kiwi.split_into_sents 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: kiwipiepy

클래스/타입: Kiwi

메소드/함수: split_into_sents

hotexamples.com에서의 예제들: 2

Python Kiwi.split_into_sents - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 kiwipiepy.Kiwi.split_into_sents에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Kiwi(23)

analyze(15)

prepare(7)

tokenize(5)

add_user_word(3)

load_user_dictionary(3)

extractWords(2)

split_into_sents(2)

add_pre_analyzed_word(1)

add_re_rule(1)

cutoff_threshold(1)

extract_words(1)

integrate_allomorph(1)

perform(1)

예제 #1

파일 보기

def test_split_into_sents():
    kiwi = Kiwi()
    text = "다녀온 후기\n\n<강남 토끼정에 다녀왔습니다.> 음식도 맛있었어요 다만 역시 토끼정 본점 답죠?ㅎㅅㅎ 그 맛이 크으.. 아주 맛있었음...! ^^"
    sents = kiwi.split_into_sents(text, normalize_coda=True)
    assert len(sents) == 6

    assert sents[0].text == "다녀온 후기"
    assert sents[1].text == "<강남 토끼정에 다녀왔습니다.>"
    assert sents[2].text == "음식도 맛있었어요"
    assert sents[3].text == "다만 역시 토끼정 본점 답죠?ㅎㅅㅎ"
    assert sents[4].text == "그 맛이 크으.."
    assert sents[5].text == "아주 맛있었음...! ^^"

예제 #2

파일 보기

def baseline_splitter(text):
    import re
    sents = re.split(r'(?<=[.!?])\s', text)
    return sents


if __name__ == '__main__':
    import argparse

    parser = argparse.ArgumentParser()
    parser.add_argument('datasets', nargs='+')
    parser.add_argument('--write_result')
    parser.add_argument('--write_err')
    args = parser.parse_args()

    print('======== Baseline Splitter ========')
    for dataset in args.datasets:
        run_evaluate(dataset, baseline_splitter)

    print('======== Kiwi.split_into_sents ========')
    from kiwipiepy import Kiwi
    kiwi = Kiwi()
    kiwi.tokenize("foo-bar")  # warm-up
    for dataset in args.datasets:
        run_evaluate(
            dataset, lambda text: [
                sent.text
                for sent in kiwi.split_into_sents(text, normalize_coda=True)
            ], args.write_result, args.write_err)