Python MosesTokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: fairseq.data.encoders.moses_tokenizer

클래스/타입: MosesTokenizer

hotexamples.com에서의 예제들: 4

Python MosesTokenizer - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 fairseq.data.encoders.moses_tokenizer.MosesTokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

MosesTokenizer(4)

encode(3)

자주 사용되는 메소드들

MosesTokenizer (4)

encode (3)

예제 #1

파일 보기

파일: get_bitext.py 프로젝트: Mohamed-E-Fayed/fairseq

def pretokenize(args, in_path: str, out_path: str, src: str, tgt: str):
    if os.path.exists(out_path):
        print(f"{out_path} exists. skipping it.")
        return
    Args = namedtuple(
        "Args",
        [
            "source_lang",
            "target_lang",
            "moses_no_dash_splits",
            "moses_no_escape",
        ],
    )
    _args = Args(
        source_lang=args.source_lang,
        target_lang=args.target_lang,
        moses_no_dash_splits=False,
        moses_no_escape=False,
    )
    pretokenizer = MosesTokenizer(_args)
    with open(in_path) as f, open(out_path, "w") as f_o:
        s_o = []
        for s in f:
            #s_o.append(pretokenizer.encode(s.strip()) + "\n")
            f_o.write(pretokenizer.encode(s.strip()) + "\n")

예제 #2

파일 보기

def pretokenize(in_path: str, out_path: str, src: str, tgt: str):
    Args = namedtuple('Args', ['moses_source_lang', 'moses_target_lang',
                               'moses_no_dash_splits', 'moses_no_escape'])
    args = Args(moses_source_lang=src, moses_target_lang=tgt,
                moses_no_dash_splits=False, moses_no_escape=False)
    pretokenizer = MosesTokenizer(args)
    with open(in_path) as f, open(out_path, 'w') as f_o:
        for s in f:
            f_o.write(pretokenizer.encode(s.strip()) + '\n')

예제 #3

파일 보기

파일: preprocess.py 프로젝트: shshnk94/xencoder

        def tokenizer(sentence):

            attrs = Args()

            tokenizer = MosesTokenizer(attrs)
            bpe = SubwordNMTBPE(attrs)
            dictionary = Dictionary.load('dict.en.txt')

            return dictionary.encode_line(bpe.encode(sentence),
                                          add_if_not_exist=False)

예제 #4

파일 보기

def pretokenize(in_path: str, out_path: str, src: str, tgt: str):
    Args = namedtuple(
        "Args",
        [
            "moses_source_lang",
            "moses_target_lang",
            "moses_no_dash_splits",
            "moses_no_escape",
        ],
    )
    args = Args(
        moses_source_lang=src,
        moses_target_lang=tgt,
        moses_no_dash_splits=False,
        moses_no_escape=False,
    )
    pretokenizer = MosesTokenizer(args)
    with open(in_path) as f, open(out_path, "w") as f_o:
        for s in f:
            f_o.write(pretokenizer.encode(s.strip()) + "\n")