Python Syllabifier.Syllabifier示例

编程语言: Python

命名空间/包名称: cltk.stem.sanskrit.indian_syllabifier

类/类型: Syllabifier

方法/功能: Syllabifier

hotexamples.com的示例: 2

Python Syllabifier.Syllabifier - 已找到2个示例。这些是从开源项目中提取的最受好评的cltk.stem.sanskrit.indian_syllabifier.Syllabifier.Syllabifier现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

get_phonetic_feature_vector(3)

Syllabifier(2)

get_offset(2)

orthographic_syllabify(2)

in_coordinated_range_offset(1)

is_anusvaar(1)

is_consonant(1)

is_dependent_vowel(1)

is_misc(1)

is_nukta(1)

is_plosive(1)

is_valid(1)

is_vowel(1)

示例#1

显示文件

from cltk.corpus.sanskrit.itrans.unicode_transliterate import ItransTransliterator
from cltk.tokenize.sentence import TokenizeSentence
from cltk.stem.sanskrit.indian_syllabifier import Syllabifier

lang = "hi"
language = "hindi"
tokenizer = TokenizeSentence("sanskrit")
syl = Syllabifier(language)

#List of phonemes that should not be counted as separate diphones while splitting
check_phonemes_1 = ["ः", "ऽ", "ङ्‍\u200d"]
check_phonemes_2 = ["\u200c"]

#List of characters that should be taken to the left in case they are present to the right while splitting
move_left_1 = ['म्', 'र्', 'न्']


#Checking for numbers and purna-viram
def check_token(token):
    flag = True
    if token == "।":
        flag = False
    elif token.isdigit():
        flag = False

    return flag


#Checking for splitting position
def check_proximity(split, pos, next_token):
    if len(split) - pos in range(1, 3):

示例#2

显示文件

"""
@author: sourabh garg
"""
import itertools
import re
import words_tagging
from cltk.stem.sanskrit.indian_syllabifier import Syllabifier
from cltk.corpus.sanskrit.alphabet import *

lang = 'hindi'
h = Syllabifier(lang)

VOWELS = [
    INDEPENDENT_VOWELS_SIMPLE, INDEPENDENT_VOWELS_DIPTHONGS, INDEPENDENT_VOWELS
]

VOWELS = list(itertools.chain(*VOWELS))
CONSONANTS = [
    CONSONANT_GUTTURALS, CONSONANT_PALATALS, CONSONANT_CEREBRALS,
    CONSONANT_DENTALS, CONSONANT_LABIALS, SEMIVOWEL_CONSONANT,
    SIBILANT_CONSONANT, SONANT_ASPIRATE
]
CONSONANTS = list(itertools.chain(*CONSONANTS))
CONSONANT_HALANTA = [x + '्' for x in CONSONANTS]
CONS_TO_CONS = dict(zip(CONSONANT_HALANTA, CONSONANTS))
matraa_to_vowel = {
    '': 'अ',
    'ा': 'आ',
    'ि': 'इ',
    'ी': 'ई',
    'ु': 'उ',