Python tran2simple 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utility.function

메소드/함수: tran2simple

hotexamples.com에서의 예제들: 6

Python tran2simple - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utility.function.tran2simple에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

    def pretrain_model(self, space=' '):
        # Assert the textfile is exist?
        if self.textfile == None:
            self.textfile = self.getTexts(self.fname + '.txt', space=' ')

        self.traincorpusfname = self.fname + '.traincorpus'
        # iter counter for articles
        i = 0
        with open(self.textfile, 'r') as icorpus, \
            open(self.traincorpusfname, 'w') as ocorpus:
            for line in icorpus.readlines():
                # Convert the translated chinese to simple
                text = tran2simple(line)
                # seperate word using jieba
                text = seperate_word(text)

                # remove non-chinese word from corpus
                text = remove_word(line=text, encoding='utf8')
                # print text
                if text: ocorpus.write(text + '\n')

                i = i + 1
                if i % tCorpus.SEGSIZE == 0:
                    self.logger.info('PreVecModel: ' + str(i) + ' articles')
        self.logger.info('PreVecModel:' + str(i) + ' articles')
        return self.traincorpusfname

예제 #2

파일 보기

파일: trainvecmodel.py 프로젝트: cwlseu/ChineseSA

    def pretrain_model(self, space = ' '):
        # Assert the textfile is exist?
        if self.textfile == None:
            self.textfile = self.getTexts(self.fname + '.txt', space=' ')

        self.traincorpusfname = self.fname + '.traincorpus'
        # iter counter for articles
        i = 0
        with open(self.textfile, 'r') as icorpus, \
            open(self.traincorpusfname, 'w') as ocorpus:
            for line in icorpus.readlines():
                # Convert the translated chinese to simple
                text = tran2simple(line)
                # seperate word using jieba
                text = seperate_word(text)
               
                # remove non-chinese word from corpus
                text = remove_word(line = text, encoding = 'utf8')
                # print text
                if text: ocorpus.write(text + '\n') 
                    
                i = i + 1
                if i % tCorpus.SEGSIZE == 0:
                    self.logger.info('PreVecModel: ' + str(i) + ' articles')
        self.logger.info('PreVecModel:' + str(i) + ' articles')
        return self.traincorpusfname

예제 #3

파일 보기

파일: test_function.py 프로젝트: czly/ChineseSA

	def testtrans2simplefile(self):
		import filecmp
		with open(self.corpus, 'r') as icorpus, \
			open(self.corpus+'.simple', 'w') as ocorpus:
			for line in icorpus.readlines():
				ocorpus.write(tran2simple(line) + '\n')
		assert(filecmp.cmp('transchinese.txt.simpletarget', self.corpus+'.simple'))

예제 #4

파일 보기

파일: test_function.py 프로젝트: qitong/ChineseSA

	def testtrans2simplefile(self):
		import filecmp
		with open(self.corpus, 'r') as icorpus, \
			open(self.corpus+'.simple', 'w') as ocorpus:
			for line in icorpus.readlines():
				ocorpus.write(tran2simple(line) + '\n')
		assert(filecmp.cmp('transchinese.txt.simpletarget', self.corpus+'.simple'))

예제 #5

파일 보기

파일: test_function.py 프로젝트: czly/ChineseSA

 def testtrans2simple(self):
     line = ['開放中文轉換，是一個致力於中文簡繁轉換的項目，提供高質量詞庫和函數庫', '的項目，提供高質量詞庫和函數']
     ret = tran2simple(line)
     exposeret = [
         '\xe5\xbc\x80\xe6\x94\xbe\xe4\xb8\xad\xe6\x96\x87\xe8\xbd\xac\xe6\x8d\xa2\xef\xbc\x8c\xe6\x98\xaf\xe4\xb8\x80\xe4\xb8\xaa\xe8\x87\xb4\xe5\x8a\x9b\xe4\xba\x8e\xe4\xb8\xad\xe6\x96\x87\xe7\xae\x80\xe7\xb9\x81\xe8\xbd\xac\xe6\x8d\xa2\xe7\x9a\x84\xe9\xa1\xb9\xe7\x9b\xae\xef\xbc\x8c\xe6\x8f\x90\xe4\xbe\x9b\xe9\xab\x98\xe8\xb4\xa8\xe9\x87\x8f\xe8\xaf\x8d\xe5\xba\x93\xe5\x92\x8c\xe5\x87\xbd\xe6\x95\xb0\xe5\xba\x93',
         '\xe7\x9a\x84\xe9\xa1\xb9\xe7\x9b\xae\xef\xbc\x8c\xe6\x8f\x90\xe4\xbe\x9b\xe9\xab\x98\xe8\xb4\xa8\xe9\x87\x8f\xe8\xaf\x8d\xe5\xba\x93\xe5\x92\x8c\xe5\x87\xbd\xe6\x95\xb0'
     ]
     assert (ret == exposeret)

예제 #6

파일 보기

파일: test_function.py 프로젝트: czly/ChineseSA

	def testtrans2simple(self):
		line = ['開放中文轉換，是一個致力於中文簡繁轉換的項目，提供高質量詞庫和函數庫','的項目，提供高質量詞庫和函數']
		ret = tran2simple(line)
		exposeret = ['\xe5\xbc\x80\xe6\x94\xbe\xe4\xb8\xad\xe6\x96\x87\xe8\xbd\xac\xe6\x8d\xa2\xef\xbc\x8c\xe6\x98\xaf\xe4\xb8\x80\xe4\xb8\xaa\xe8\x87\xb4\xe5\x8a\x9b\xe4\xba\x8e\xe4\xb8\xad\xe6\x96\x87\xe7\xae\x80\xe7\xb9\x81\xe8\xbd\xac\xe6\x8d\xa2\xe7\x9a\x84\xe9\xa1\xb9\xe7\x9b\xae\xef\xbc\x8c\xe6\x8f\x90\xe4\xbe\x9b\xe9\xab\x98\xe8\xb4\xa8\xe9\x87\x8f\xe8\xaf\x8d\xe5\xba\x93\xe5\x92\x8c\xe5\x87\xbd\xe6\x95\xb0\xe5\xba\x93', '\xe7\x9a\x84\xe9\xa1\xb9\xe7\x9b\xae\xef\xbc\x8c\xe6\x8f\x90\xe4\xbe\x9b\xe9\xab\x98\xe8\xb4\xa8\xe9\x87\x8f\xe8\xaf\x8d\xe5\xba\x93\xe5\x92\x8c\xe5\x87\xbd\xe6\x95\xb0']
		assert(ret == exposeret)