3]  # خواندن مقادیر برچسبها از فايل متني ليست تصميم و نگهداري آنها در يک ليست جداگانه براي مقايسه

fp_train_sorted_decision_list.close()

# خواندن اطلاعات از فايل متني تست
#############################################

from nltk.corpus import PlaintextCorpusReader
corpus_root = '/'
corpus_root = 'WSD/shane_4 folds_texts/shane_test/'  # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد)  python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر
peykare = PlaintextCorpusReader(corpus_root, '.*')

f = peykare.fileids()
l = len(f)

fp = peykare.open(f[3])

peykare_lines = fp.read().split('\n')
peykare_lines_count = len(peykare_lines)  # تعداد خطوط پيکره

fp.seek(0)

test_given_lines_tags = ['' for i in range(peykare_lines_count)]
for i in range(peykare_lines_count):
    line_str = fp.readline()
    line_words = line_str.split()
    test_given_lines_tags[i] = line_words[
        -1]  # test_given_lines_tags ذخیره‌کردن برچسب خطوط فايل در بردار

fp.seek(0)

fp_train_sorted_decision_list.close()

# خواندن اطلاعات از فايل متني تست
#############################################

from nltk.corpus import PlaintextCorpusReader
corpus_root = '/'
corpus_root = 'WSD/shir_4 folds_texts/shir_test/' # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد)  python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر
peykare = PlaintextCorpusReader(corpus_root, '.*') 

f=peykare.fileids()
l=len(f)

fp=peykare.open(f[0])

peykare_lines=fp.read().split('\n')
peykare_lines_count=len(peykare_lines) # تعداد خطوط پيکره

fp.seek(0)


test_given_lines_tags=['' for i in range(peykare_lines_count)]
for i in range(peykare_lines_count):
    line_str=fp.readline()       
    line_words=line_str.split()       
    test_given_lines_tags[i]=line_words[-1]     # test_given_lines_tags ذخیره‌کردن برچسب خطوط فايل در بردار  

fp.seek(0)
Esempio n. 3
0
from features_list_2 import *

import nltk
import math
import codecs

from nltk.corpus import PlaintextCorpusReader

corpus_root = '/'
corpus_root = 'WSD/krm_4 folds_texts/krm_train/'  # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد)  python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر
peykare = PlaintextCorpusReader(corpus_root, '.*')

f = peykare.fileids()
l = len(f)

fp = peykare.open(f[2])
peykare_lines = fp.read().split('\n')
peykare_lines_count = len(peykare_lines)  # تعداد خطوط پيکره

fp.seek(0)

peykare_words = fp.read().split()  # کل کلمات پيکره

fp.seek(0)

lines_tags = ['' for i in range(peykare_lines_count)]
for i in range(peykare_lines_count):
    line_str = fp.readline()
    line_words = line_str.split()
    lines_tags[i] = line_words[
        -1]  # lines_tags ذخیره‌کردن برچسب خطوط فايل در بردار
from features_list_2 import *

import nltk
import math
import codecs

from nltk.corpus import PlaintextCorpusReader
corpus_root = '/'
corpus_root = 'WSD/krm_4 folds_texts/krm_train/'  # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد)  python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر
peykare = PlaintextCorpusReader(corpus_root, '.*')

f = peykare.fileids()
l = len(f)

fp = peykare.open(f[1])
peykare_lines = fp.read().split('\n')
peykare_lines_count = len(peykare_lines)  # تعداد خطوط پيکره

fp.seek(0)

peykare_words = fp.read().split()  # کل کلمات پيکره

fp.seek(0)

lines_tags = ['' for i in range(peykare_lines_count)]
for i in range(peykare_lines_count):
    line_str = fp.readline()
    line_words = line_str.split()
    lines_tags[i] = line_words[
        -1]  # lines_tags ذخیره‌کردن برچسب خطوط فايل در بردار
Esempio n. 5
0
def file_words(corpus_root):
	file_list = []
	corpus = PlaintextCorpusReader(corpus_root, '.*')
	for infile in sorted(corpus.fileids()):
		file_list.append([corpus.open(infile).read().encode('utf8').strip()]) 
	return file_list