Python get_header 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: competition_utilities

메소드/함수: get_header

hotexamples.com에서의 예제들: 11

Python get_header - 11개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 competition_utilities.get_header에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: sample_train.py 프로젝트: darKoram/StanfordML_StackOverflow

def sample_train(input_file):
    closed_count = cu.get_closed_count(input_file)
    sample = reservoir_sample(cu.iter_open_questions(input_file), closed_count)
    sample.extend(cu.iter_closed_questions(input_file))
    random.shuffle(sample)
    header = cu.get_header(input_file)
    return header, sample

예제 #2

파일 보기

파일: sample_train.py 프로젝트: coreyabshire/stacko

def sample_train(input_file):
    closed_count = cu.get_closed_count(input_file)
    sample = reservoir_sample(cu.iter_open_questions(input_file), closed_count)
    sample.extend(cu.iter_closed_questions(input_file))
    random.shuffle(sample)
    header = cu.get_header(input_file)
    return header, sample

예제 #3

파일 보기

파일: split_train.py 프로젝트: DamianMingle/Stack-Overflow-Competition

def main():
    data = cu.get_dataframe("train.csv")
    data = data.sort_index(by="PostCreationDate")

    header = cu.get_header("train.csv")
    cutoff = datetime.datetime(2012, 7, 18)

    data[data["PostCreationDate"] < cutoff].to_csv(os.path.join(cu.data_path, "train-A.csv"), index=False)
    data[data["PostCreationDate"] >= cutoff].to_csv(os.path.join(cu.data_path, "train-B.csv"), index=False)

예제 #4

파일 보기

def main():
    data = cu.get_dataframe("train.csv")
    data = data.sort_index(by="PostCreationDate")

    header = cu.get_header("train.csv")
    cutoff = datetime.datetime(2012, 7, 18)

    data[data["PostCreationDate"] < cutoff].to_csv(os.path.join(cu.data_path, "train-A.csv"), index=False)
    data[data["PostCreationDate"] >= cutoff].to_csv(os.path.join(cu.data_path, "train-B.csv"), index=False)

예제 #5

파일 보기

파일: sample_train.py 프로젝트: sunnyuny/stackoverflow-closed-question

def sample_train(input_file):
    print("get closed question count")
    closed_count = cu.get_closed_count(input_file)
    print("sample open questions")
    sample = reservoir_sample(cu.iter_open_questions(input_file), closed_count)
    print("get all closed questions")
    sample.extend(cu.iter_closed_questions(input_file))
    print("shuffle all the data")
    random.shuffle(sample)
    header = cu.get_header(input_file)
    return header, sample

예제 #6

파일 보기

파일: sample_train.py 프로젝트: sunnyuny/stackoverflow-closed-question

def sample_train(input_file):
    print("get closed question count")
    closed_count = cu.get_closed_count(input_file)
    print("sample open questions")
    sample = reservoir_sample(cu.iter_open_questions(input_file), closed_count)
    print("get all closed questions")
    sample.extend(cu.iter_closed_questions(input_file))
    print("shuffle all the data")
    random.shuffle(sample)
    header = cu.get_header(input_file)
    return header, sample

예제 #7

파일 보기

def main():
    print "get data"
    data = cu.get_dataframe("train.csv")
    print "sort by creation date"
    data = data.sort_index(by="PostCreationDate")
    print "cut off"
    header = cu.get_header("train.csv")
    splits = np.array_split(data, 3)
    frames = [splits[0], splits[1]]
    train_data = pd.concat(frames)
    test_data = splits[2]
    # cutoff = datetime.datetime(2012, 7, 18)
    print "write to csv"
    cu.write_sample("train_data.csv", header, train_data)
    train_data.to_csv(os.path.join(cu.data_path, "train_data.csv"), index=False, header=header)
    test_data.to_csv(os.path.join(cu.data_path, "test_data.csv"), index=False, header=header)

예제 #8

파일 보기

파일: write_short.py 프로젝트: darKoram/StanfordML_StackOverflow

def main():
    print("Reading the data", train_file)
    header = cu.get_header(train_file)

    records = cu.get_lines(train_file, lines)
    cu.write_sample(output_file, header, records)

예제 #9

파일 보기

파일: parse_csv.py 프로젝트: DmitryKey/kaggle_stackexchange_prediction

				values.append(q[field])
			else:
				values.append("''")
		writer.writerow(values)
		i = i + 1
	print "written out total for this class: " + str(i)
	return i
		
if __name__=="__main__":

	start = time.time()
	
	filename_in = train_file
	filename_out = os.path.join(main_path, "data", output_sampled_file)
	
	writer = csv.writer(open(filename_out, "w"), lineterminator="\n")
	writer.writerow(cu.get_header(filename_in))
	
	total_written = 0
	if output_all_entries == 0:
		per_class_limit = cu.output_rows_limit / len(question_status)
	else:
		per_class_limit = -1
	for status in question_status:
		total_written = total_written + sample_by_class(writer,status,per_class_limit)

	print "total rows written:" + str(total_written)
	finish = time.time()
	print "completed in %0.4f seconds" % (finish-start)

예제 #10

파일 보기

파일: compute_voc.py 프로젝트: policecar/kaggle-stackoverflow

import nltk
import nltk.stem.snowball as snowball

import competition_utilities as cu

DATA_DIR = '../data/'
RESOURCES_DIR = './resources/'
file_name = 'train.csv'

logging.basicConfig( level=logging.INFO,
					format='%(asctime)s %(levelname)s %(message)s' )
log = logging.getLogger(__name__)

log.info( "π: read data" )
header = cu.get_header( file_name )
open_status = [ r[14] for r in cu.get_reader( file_name ) ]

def generate_tags():
	log.info( "π: read tags" )
	tags = [ r[8:13] for r in cu.get_reader( file_name ) ]
	
	log.info( "π: process tags" )
	res = {}
	for st in pd.Series( open_status ).unique():
		# res.setdefault( st, set() )
		res.setdefault( st, [] )

	for i,x in enumerate( open_status ):
		# res[x] = res[x].union( tags[i] )
		res[x].extend( tags[i] )

예제 #11

파일 보기

파일: parse_csv.py 프로젝트: l0gr1thm1k/Predict-Closed-Questions-on-Stack-Overflow

            else:
                values.append("''")
        writer.writerow(values)
        i = i + 1
    print "written out total for this class: " + str(i)
    return i


if __name__ == "__main__":

    start = time.time()

    filename_in = train_file
    filename_out = os.path.join(main_path, "data", output_sampled_file)

    writer = csv.writer(open(filename_out, "w"), lineterminator="\n")
    writer.writerow(cu.get_header(filename_in))

    total_written = 0
    if output_all_entries == 0:
        per_class_limit = cu.output_rows_limit / len(question_status)
    else:
        per_class_limit = -1
    for status in question_status:
        total_written = total_written + sample_by_class(
            writer, status, per_class_limit)

    print "total rows written:" + str(total_written)
    finish = time.time()
    print "completed in %0.4f seconds" % (finish - start)