3] # خواندن مقادیر برچسبها از فايل متني ليست تصميم و نگهداري آنها در يک ليست جداگانه براي مقايسه fp_train_sorted_decision_list.close() # خواندن اطلاعات از فايل متني تست ############################################# from nltk.corpus import PlaintextCorpusReader corpus_root = '/' corpus_root = 'WSD/shane_4 folds_texts/shane_test/' # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد) python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر peykare = PlaintextCorpusReader(corpus_root, '.*') f = peykare.fileids() l = len(f) fp = peykare.open(f[3]) peykare_lines = fp.read().split('\n') peykare_lines_count = len(peykare_lines) # تعداد خطوط پيکره fp.seek(0) test_given_lines_tags = ['' for i in range(peykare_lines_count)] for i in range(peykare_lines_count): line_str = fp.readline() line_words = line_str.split() test_given_lines_tags[i] = line_words[ -1] # test_given_lines_tags ذخیرهکردن برچسب خطوط فايل در بردار fp.seek(0)
fp_train_sorted_decision_list.close() # خواندن اطلاعات از فايل متني تست ############################################# from nltk.corpus import PlaintextCorpusReader corpus_root = '/' corpus_root = 'WSD/shir_4 folds_texts/shir_test/' # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد) python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر peykare = PlaintextCorpusReader(corpus_root, '.*') f=peykare.fileids() l=len(f) fp=peykare.open(f[0]) peykare_lines=fp.read().split('\n') peykare_lines_count=len(peykare_lines) # تعداد خطوط پيکره fp.seek(0) test_given_lines_tags=['' for i in range(peykare_lines_count)] for i in range(peykare_lines_count): line_str=fp.readline() line_words=line_str.split() test_given_lines_tags[i]=line_words[-1] # test_given_lines_tags ذخیرهکردن برچسب خطوط فايل در بردار fp.seek(0)
from features_list_2 import * import nltk import math import codecs from nltk.corpus import PlaintextCorpusReader corpus_root = '/' corpus_root = 'WSD/krm_4 folds_texts/krm_train/' # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد) python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر peykare = PlaintextCorpusReader(corpus_root, '.*') f = peykare.fileids() l = len(f) fp = peykare.open(f[2]) peykare_lines = fp.read().split('\n') peykare_lines_count = len(peykare_lines) # تعداد خطوط پيکره fp.seek(0) peykare_words = fp.read().split() # کل کلمات پيکره fp.seek(0) lines_tags = ['' for i in range(peykare_lines_count)] for i in range(peykare_lines_count): line_str = fp.readline() line_words = line_str.split() lines_tags[i] = line_words[ -1] # lines_tags ذخیرهکردن برچسب خطوط فايل در بردار
from features_list_2 import * import nltk import math import codecs from nltk.corpus import PlaintextCorpusReader corpus_root = '/' corpus_root = 'WSD/krm_4 folds_texts/krm_train/' # یا هر نسخه دیگر پایتون که بر روی دستگاه نصب شده) قرارگيرد) python34 که شامل زیرفولدرهاي ذکر شده است بايد حتما در دايرکتوري WSD فولدر peykare = PlaintextCorpusReader(corpus_root, '.*') f = peykare.fileids() l = len(f) fp = peykare.open(f[1]) peykare_lines = fp.read().split('\n') peykare_lines_count = len(peykare_lines) # تعداد خطوط پيکره fp.seek(0) peykare_words = fp.read().split() # کل کلمات پيکره fp.seek(0) lines_tags = ['' for i in range(peykare_lines_count)] for i in range(peykare_lines_count): line_str = fp.readline() line_words = line_str.split() lines_tags[i] = line_words[ -1] # lines_tags ذخیرهکردن برچسب خطوط فايل در بردار
def file_words(corpus_root): file_list = [] corpus = PlaintextCorpusReader(corpus_root, '.*') for infile in sorted(corpus.fileids()): file_list.append([corpus.open(infile).read().encode('utf8').strip()]) return file_list