###實驗

###翻譯研究作者：薛丞宏

###系統需求請安裝，愈新愈好。括號內是我實驗用的版本 giza++（1.0.7） srilm（1.7.0） moses（commit 40c819d285cdeb40c0b8cc428bfde2fcb531b655）設定好path，而且確定有mosesserver有裝起來 ${HOME}/mt內底愛有giza++、mkcls、snt2cooc.out

請安裝Python 3佮臺灣言語工具裝了後，全部的設定應該是

PATH=$PATH:/usr/local/giza-pp-v1.0.7/GIZA++-v2/
PATH=$PATH:/usr/local/giza-pp-v1.0.7/mkcls-v2/
PATH=$PATH:/usr/local/mosesdecoder/bin/
PATH=$PATH:/usr/local/srilm/bin/i686-m64/
export SCRIPTS_ROOTDIR=/usr/local/mosesdecoder/scripts/

###實驗

下跤的程式是佇國網中心平行處理的一个樣式愛3~4G的記憶體若電腦記憶體無夠，請家己提掉腳本內底的背景執行(&) 實驗請照先後走，後壁的實驗可能需要頭前實驗的物件

##產生文本請看資料處理/處理 這馬無維護毋過檔案應該都有存佇git面頂

####斷詞方法比較

cd 教育部斷詞/ #先入來資料夾
PYTHONPATH=.. python3 產生教育部例句語料.py

PYTHONPATH=.. python3 語料斷詞.py #產生長詞優先、拄好長度斷詞的結果

PYTHONPATH=.. bash 斷詞看分數指令

####互相校對

cd 校對/ #先入來資料夾
PYTHONPATH=.. python3 互相訓練.py #產生訓練的語料

訓練翻譯模型

bash 走全部指令

bash 架服務指令 #試驗做了會當`killall -15 mosesserver`關掉

bash 做試驗指令

bash 看分數指令

####語言分類

分言語/中研院千萬句揀出連詞.py
分言語/閩南語辭典連詞.py #為著後壁提TGB語料用的
分言語/閩南語辭典連詞有例句.py
分言語/語言判斷模型.py #這是一支服務，愛開咧
機器學習/訓練模型.py #會走分數出來

####提著TGB平行語料

程式散佇處理TGB佮對齊TGB內底，請照先後走遮的程式

解析TGB
分TGB語料
斷語料
對齊語料
整合語料

###斷詞斷字比較 ####訓練模型

訓練摩西斷詞佮斷字模型.py

####架摩西服務

bash 比較走結果指令

####走實驗

bash 比較架服務指令

####看實驗分數

bash 比較看分數指令

##走華臺樣式實驗（無維護）產生文本而且訓練這幾个會使做伙做

華臺斷字指令
華臺斷詞指令
華臺斷詞組指令
華臺上長詞對前指令       
華臺上長詞對後指令

#訓練別的樣式模型

華臺練模型指令

#算分數載入模型（請看電腦能力人工拍開）

華臺架服務指令

翻譯資料出來

華臺走結果指令
#拍分數
佇專案目錄內
```bash
華臺評分

Name		Name	Last commit message	Last commit date
Latest commit History 447 Commits
liah8_TGB		liah8_TGB
分言語		分言語
基準		基準
對齊TGB		對齊TGB
教育部斷詞		教育部斷詞
斷詞斷字比較		斷詞斷字比較
校對		校對
模型		模型
機器學習		機器學習
翻譯研究		翻譯研究
處理TGB		處理TGB
語料		語料
資料處理		資料處理
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
scrapy.cfg		scrapy.cfg
華臺評分		華臺評分
通用評分		通用評分

sih4sing5hong5/huan1-ik8_gian2-kiu3

Folders and files

Latest commit

History

Repository files navigation

###實驗

####語言分類

####提著TGB平行語料

About

Resources

Stars

Watchers

Forks

Languages