Python SeqGrapher.get_filename示例，glasslab.dataanalysis.graphing.seq_grapher.SeqGrapher.get_filename Python示例

示例#1

0

显示文件

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/' +\
        'Miscellaneous_Collaborations/Rodrigo_CD8s_2014_09/Enhancers_set2'
    dirpath = yzer.get_path(dirpath)

    save_path = yzer.get_and_create_path(
        dirpath, 'Figures', 'Enhancer_counts')

    datasets = {}
    breed_sets = get_breed_sets()
    for i, (samples, short_names) in enumerate(breed_sets):
        oth_breed = breed_sets[1 - i]
        for j, sample_prefix in enumerate(short_names):
            sample_dirpath = yzer.get_filename(dirpath, sample_prefix)
            filename = yzer.get_filename(sample_dirpath,
                                         sample_prefix + '_enhancers.txt')

            data = yzer.import_file(filename)
            data = data.fillna(0)

            min_thresh = get_threshold('atac')

            data = data[data['tag_count'] >= min_thresh]

            datasets[sample_prefix] = data

    # How many denovo d7 enhancers are also in foxo1 kos?
    for celltype in ('hi', 'lo'):
        d7 = datasets['klrg{}_d7'.format(celltype)]

示例#2

0

显示文件

文件： bmdc_vs_thiomac.py 项目： karmel/glasslab

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/NOD_BALBc/ThioMacs/Analysis_2013_02/'
    dirpath_bmdc = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/NOD_BALBc/BMDCs/Analysis_2013_03/'
    dirpath = yzer.get_path(dirpath)
    dirpath_bmdc = yzer.get_path(dirpath_bmdc)
    img_dirpath = yzer.get_and_create_path(dirpath, 'bmdc_vs_thiomac')
    thio = yzer.import_file(
        yzer.get_filename(dirpath, 'transcript_vectors.txt'))
    bmdc = yzer.import_file(
        yzer.get_filename(dirpath_bmdc, 'transcript_vectors.txt'))

    sets = []

    for data in (thio, bmdc):
        data = data.fillna(0)

        refseq = yzer.get_refseq(data)

        # Remove low tag counts
        #refseq = refseq[refseq['transcript_score'] >= 4]

        sets.append(refseq)

示例#3

0

显示文件

文件： peak_scatterplots.py 项目： karmel/glasslab

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'peak_scatterplots')

    if True:
        for main, compare, basal_cond in (('p65', 'GR', 'KLA'), ('GR', 'p65',
                                                                 'Dex')):
            data = yzer.import_file(
                yzer.get_filename(dirpath, 'motifs', 'from_peaks',
                                  '{0}_kla_dex_vectors.txt'.format(main)))

            data = data.fillna(0)
            data = data.groupby(['id', 'chr_name'], as_index=False).mean()

            xcolname, ycolname = 'tag_count_2', 'tag_count'  #'p65_kla_tag_count', 'p65_kla_dex_tag_count',
            data = data[data[ycolname] >= 10]

            cond_1 = (data['tag_count_3'] == 0)
            cond_2 = (data['tag_count_3'] > 0) & (data['tag_count_3'] <
                                                  data['tag_count_4'])
            cond_3 = (data['tag_count_3'] > 0) & (data['tag_count_3'] >=
                                                  data['tag_count_4'])
            ax = None
            for show_points in (True, False):
                ax = yzer.scatterplot(

示例#4

0

显示文件

from matplotlib import pyplot
import numpy

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'piecharts_from_p65_gr')

    if True:
        for main, compare, basal_cond in (
            ('GR', 'p65', 'Dex'),
            ('p65', 'GR', 'KLA'),
        ):
            data = yzer.import_file(
                yzer.get_filename(dirpath, 'motifs', 'from_peaks',
                                  '{0}_kla_dex_vectors.txt'.format(main)))

            # Get nearby peaks first
            ids_with_nearby = data[
                (data['distance_to_tss_2'].isnull() == False)
                & (data['distance_to_peak_2'] <= 1000)]['id']

            data = data.fillna(0)
            data = data.groupby(['id', 'chr_name'], as_index=False).mean()
            data = data[data['tag_count'] >= 10]

            total = len(data)

            has_nearby_peak = data['id'].isin(ids_with_nearby)
            bound_by_main_not_comp_not_basal = data[~has_nearby_peak &
                                                    (data['tag_count_3'] < 10)]

示例#5

0

显示文件

'''
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.dataanalysis.misc.rodrigo.samples import sample_name,\
    get_threshold
if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/' +\
        'Miscellaneous_Collaborations/Rodrigo_CD8s_2014_09/Promoters'
    dirpath = yzer.get_path(dirpath)

    cond, seq, breed = ('naive', 'atac', '')
    wt_prefix = sample_name(cond, seq, breed)
    ko_prefix = sample_name(cond, seq, 'foxo1_ko_')

    wt_dirpath = yzer.get_filename(dirpath, wt_prefix)
    ko_dirpath = yzer.get_filename(dirpath, ko_prefix)

    wt_filename = yzer.get_filename(wt_dirpath,
                                    wt_prefix + '_promoters.txt')
    ko_filename = yzer.get_filename(ko_dirpath,
                                    ko_prefix + '_promoters.txt')

    wt_data = yzer.import_file(wt_filename)
    wt_data = wt_data.fillna(0)
    ko_data = yzer.import_file(ko_filename)
    ko_data = ko_data.fillna(0)

    min_thresh = get_threshold(seq)
    wt_data = wt_data[wt_data['tag_count'] >= min_thresh]
    ko_data = ko_data[ko_data['tag_count'] >= min_thresh]

示例#6

0

显示文件

文件： boxplots_non_refseq_by_p65.py 项目： karmel/glasslab

'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero
from glasslab.dataanalysis.misc.gr_project_2012.v1.enhancer_subsets_for_supershift import ucsc_link_cleanup
import numpy

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = yzer.get_path(dirpath)
    peak_type = 'p65'
        
    img_dirpath = yzer.get_and_create_path(dirpath, 'boxplots_non_refseq_by_{0}'.format(peak_type))
    
    transcripts = yzer.import_file(yzer.get_filename(dirpath, 'motifs', 'transcript_vectors_with_nearby_peaks.txt'))
    
    
    if True:
        pu_1 = False
        for ratio in (1.5, 2, 3):
            data = transcripts[transcripts['refseq'] == 'f']
            data = data[data['has_infrastructure'] == 0]
            data = data[data['length'] < 6000]
            data = data[data['dex_1_lfc'] < 1]
            data = data[data['kla_1_lfc'] >= 1]
            data = data[data['gr_kla_dex_tag_count'] > 0]
            data = data[data['gr_fa_kla_dex_tag_count'] == 0]
            print len(data)
            if pu_1: data = data[data['pu_1_kla_tag_count']  + data['pu_1_kla_tag_count'] > 0]

示例#7

0

显示文件

文件： expression_levels.py 项目： karmel/glasslab

'''
Created on Jun 26, 2012

@author: karmel
'''
from glasslab.dataanalysis.misc.gr_project_2012.elongation import set_up_sequencing_run_ids, \
    get_sequencing_run_id_sets, get_rep_string, total_tags_per_run
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.dataanalysis.motifs.motif_analyzer import MotifAnalyzer

if __name__ == '__main__':
    grapher = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = grapher.get_path(dirpath)
    filename = grapher.get_filename(dirpath, 'transcript_vectors.txt')

    data = grapher.import_file(filename)

    run_ids = set_up_sequencing_run_ids()
    dmso, kla, kla_dex, all_dmso, all_kla, all_kla_dex = get_sequencing_run_id_sets(
    )
    total_tags = total_tags_per_run()

    # Norm sum scalars listed for all, group 1, group 2, group 3, group 4
    kla_scalars = [1.223906, 1.281572, 1.118363, 1.104860, 1.503260]
    kla_dex_scalars = [1.182574, 1.147695, 1.248636, 1.069588, 1.388871]
    dex_over_kla_scalars = [1.069073, 0.967659, 1.122628, 1.008758, 0.927466]

    for i, scalar in enumerate(kla_scalars):
        data = grapher.normalize(data,
                                 'kla_{0}tag_count'.format(get_rep_string(i)),

示例#8

0

显示文件

Note: Made font.weight = bold and axes.titlesize = 24, font.size = 16 in matplotlibrc
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/Glass Atlas/NAR_review_data/vs_homer'
    dirpath = yzer.get_path(dirpath)

    img_dirpath = yzer.get_and_create_path(dirpath, 'scatterplots')

    data = yzer.import_file(
        yzer.get_filename(dirpath, 'tag_count_by_refseq.txt'))
    data['sum'] = nonzero(data['sum'].fillna(0))

    homer_data = yzer.import_file(
        yzer.get_filename(dirpath, 'RNA_GroSeq_CountsGenes.txt'))
    homer_data['sequence_identifier'] = homer_data['Gene ID']
    homer_data['homer_tag_count'] = nonzero(homer_data[
        'ThioMac-GroSeq-notx-110513/ genes (Total: 12166480.0) normFactor 0.82']
                                            .fillna(0))
    homer_data = homer_data[['sequence_identifier', 'homer_tag_count']]

    merged = data.merge(homer_data, how='inner', on='sequence_identifier')
    merged = merged.fillna(1)

    if True:
        ax = yzer.scatterplot(merged,

示例#9

0

显示文件

文件： ctcf_stat1_overlap.py 项目： karmel/glasslab

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/CD4TCells/Oshea_enhancers/ctcf_stat1_overlap'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'figures')

    data = yzer.import_file(
        yzer.get_filename(dirpath, 'ctcf_with_stat1_binding.txt')).fillna(0)
    with_stat1 = data[data['p2_tag_count'] > 0]
    without_stat1 = data[data['p2_tag_count'] == 0]

    if True:
        ax = yzer.piechart(
            [len(with_stat1), len(without_stat1)],
            ['CTCF sites with STAT1', 'CTCF sites without STAT1'],
            title='DP Thymocyte CTCF Sites with STAT1 in Th1 Cells',
            save_dir=img_dirpath,
            show_plot=True)
    data['tag_count_nonzero'] = nonzero(data['tag_count'])
    data['p2_tag_count_nonzero'] = nonzero(data['p2_tag_count'])
    ax = yzer.scatterplot(
        data,
        'tag_count_nonzero',

示例#10

0

显示文件

    return none, lt, lt_with_gain, nc, nc_with_gain, gt, gt_with_gain

def get_filters_transcript(subdata, xcol, ycol):
    down_in_kla = subdata['kla_1_lfc'] <= -1
    nc_in_kla = subdata['kla_1_lfc'].abs() < 1
    up_in_kla = subdata['kla_1_lfc'] >= 1 & (subdata['dex_over_kla_1_lfc'] > -.58)
    trans = up_in_kla & (subdata['dex_over_kla_1_lfc'] <= -.58)
    return down_in_kla, nc_in_kla, up_in_kla, trans

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'bargraphs_from_p65_gr')
    
    data = yzer.import_file(yzer.get_filename(dirpath, 'motifs','transcript_vectors.txt'))
    data = data[data['has_refseq'] == 1]
    
    if True:
        for main, compare, basal_cond, comp_cond in (('p65','GR', 'KLA', 'Dex'),('GR','p65', 'Dex', 'KLA')):
            data = data.fillna(0)
            data = data.groupby(['id','chr_name'],as_index=False).mean()
            
            tag_count_1 = '{0}_kla_dex_tag_count'.format(main.lower())
            tag_count_2 = '{0}_{1}_tag_count'.format(main.lower(), basal_cond.lower())
            tag_count_3 = '{0}_kla_dex_tag_count'.format(compare.lower()) 
            tag_count_4 = '{0}_{1}_tag_count'.format(compare.lower(), comp_cond.lower())
    
            datasets = [data[filterset] for filterset in get_filters_many(data, tag_count_1, 
                                                        tag_count_2, tag_count_3, tag_count_4)]

示例#11

0

显示文件

文件： genes_to_average_enhancer_lfc.py 项目： karmel/glasslab

condition, or with an unequal number of genes in each condition.
For those, we will sort genes in each condition by number
of interactions, and allow for null values when there is a number
mismatch.
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
import numpy

kla_col = 'kla_6h_lfc'

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/HiC/'
    dirpath = yzer.get_path(dirpath)
    data_dirpath = yzer.get_filename(dirpath, 'enhancer_sets')
    img_dirpath = yzer.get_and_create_path(dirpath,
                                           'genes_to_average_enhancer_lfc')

    keys = ('all', 'notx', 'kla', 'notx_only', 'kla_only', 'shared_enh')

    if True:
        interactions = yzer.import_file(
            yzer.get_filename(data_dirpath,
                              'transcript_pairs_refseq_with_me2.txt'))
        interactions = interactions[interactions['count'] > 1]

        all_transcripts = yzer.import_file(
            yzer.get_filename(data_dirpath, 'transcript_vectors.txt'))

        transcripts = all_transcripts[['id', 'kla_lfc', 'kla_6h_lfc']]

示例#12

0

显示文件

    data['ucsc_link_nod'] = data['ucsc_link_nod'].map(
        lambda x: '<a href={0} target="_blank">UCSC</a>'.format(
            x.replace('nod_balbc', 'gr_project_2012')))

    return data


if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = yzer.get_path(dirpath)
    save_dirpath = yzer.get_and_create_path(dirpath,
                                            'subgroups_for_supershift')

    transcripts = yzer.import_file(
        yzer.get_filename(dirpath, 'motifs', 'transcript_vectors.txt'))

    data = transcripts[transcripts['refseq'] == 'f']
    data = data[data['has_infrastructure'] == 0]
    data = data[data['length'] < 6000]
    data = data[data['dex_1_lfc'] < 1]
    data = data[data['kla_1_lfc'] >= 1]

    data = data.fillna(0)

    data = ucsc_link_cleanup(data)

    if False:
        # First get sets for Negative controls
        tfs = ['p65', 'pu_1', 'gr', 'gr_fa']
        for tf in tfs:

示例#13

0

显示文件

文件： ctcf_across_celltypes.py 项目： karmel/glasslab

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero
from glasslab.dataanalysis.motifs.motif_analyzer import MotifAnalyzer

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/CD4TCells/Oshea_enhancers/ctcf_across_celltypes'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'figures')

    dp = yzer.import_file(
        yzer.get_filename(dirpath, 'dp_with_thiomac_ctcf.txt')).fillna(0)
    thio = yzer.import_file(
        yzer.get_filename(dirpath, 'thiomac_with_dp_ctcf.txt')).fillna(0)

    # Get venn-diagram sets
    only_dp = dp[dp['thiomac_ctcf_tag_count'] == 0]
    only_thio = thio[thio['dp_ctcf_tag_count'] == 0]
    shared = dp[dp['thiomac_ctcf_tag_count'] != 0]
    shared_check = thio[thio['dp_ctcf_tag_count'] != 0]
    print len(only_dp), len(only_thio), len(shared), len(shared_check)

    data = shared.append(only_dp, ignore_index=True)
    data = data.append(only_thio, ignore_index=True)

    data['dp_nonzero'] = nonzero(data['dp_ctcf_tag_count'])
    data['thio_nonzero'] = nonzero(data['thiomac_ctcf_tag_count'])

示例#14

0

显示文件

文件： boxplots_redistribution_pairs.py 项目： karmel/glasslab

    data['region_end'] = data.apply(lambda row: int(
        max(row['transcription_end'], row['transcription_end_5'])),
                                    axis=1)
    # Get rid of pairs that are really just overlapping
    data = data[data['region_end'] - data['region_start'] >= 300]
    #data = data[data['region_end'] - data['region_start'] <= 10000]

    return data


if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = yzer.get_path(dirpath)
    motif_dirpath = yzer.get_filename(dirpath, 'motifs', 'from_peaks')

    transcripts = yzer.import_file(
        yzer.get_filename(dirpath, 'motifs', 'transcript_vectors.txt'))
    transcripts['glass_transcript_id'] = transcripts['id']

    if True:
        all_data = yzer.import_file(
            yzer.get_filename(
                dirpath, 'redistribution',
                'p65_peaks_bigger_in_kla_dex_with_nearby_bigger_kla_peaks.txt')
        )

        data = get_high_quality_pairs(all_data, transcripts)
        '''
        # Print these out to send to collaborators.

示例#15

0

显示文件

文件： interactions_by_kla_lfc.py 项目： karmel/glasslab

@author: karmel

What do enhancers that are gaining methyl with KLA look like?

'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero
from collections import OrderedDict

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/HiC/'
    dirpath = yzer.get_path(dirpath)
    data_dirpath = yzer.get_filename(dirpath, 'enhancer_sets')

    kla_col = 'kla_lfc'

    tss_only = False
    img_dirpath = yzer.get_and_create_path(
        dirpath, 'interactions_by_kla_lfc', tss_only and 'genic'
        or 'all_interactions', 'lfc_2')

    # File generated in novel_me2_sites
    enhancers = yzer.import_file(
        yzer.get_filename(
            data_dirpath,
            'all_enhancers_with_me2_and_{0}interaction_stats.txt'.format(
                tss_only and 'tss_' or '')))

示例#16

0

显示文件

@author: karmel

What do enhancers that are gaining methyl with KLA look like?

'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero
from collections import OrderedDict

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/HiC/'
    dirpath = yzer.get_path(dirpath)
    data_dirpath = yzer.get_filename(dirpath, 'enhancer_sets')

    kla_col = 'kla_lfc'

    tss_only = False
    img_dirpath = yzer.get_and_create_path(
        dirpath, 'novel_me2_sites', tss_only and 'genic' or 'all_interactions',
        'ratio_10')

    if False:
        enhancers = yzer.import_file(
            yzer.get_filename(data_dirpath,
                              'all_distal_enhancers_inc_me2.txt'))

        all_transcripts = yzer.import_file(
            yzer.get_filename(data_dirpath, 'transcript_vectors.txt'))

示例#17

0

显示文件

'''
Created on Jan 3, 2013

@author: karmel

Plot gen-enhancer me2 LFC; do we see correlation?
'''
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero
import numpy

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/HiC/'
    dirpath = yzer.get_path(dirpath)
    data_dirpath = yzer.get_filename(dirpath, 'enhancer_sets')
    img_dirpath = yzer.get_and_create_path(dirpath, 'gene_enhancer_me2_lfc',
                                           'scatterplots')

    interactions = yzer.import_file(
        yzer.get_filename(
            data_dirpath,
            'transcript_pairs_enhancer_with_anything_with_me2_inc_me2_counts.txt'
        ))
    interactions = interactions[interactions['count'] > 1]
    all_transcripts = yzer.import_file(
        yzer.get_filename(data_dirpath, 'transcript_vectors.txt'))

    for me2_timepoint in ('6h', '24h'):
        me2_col = 'me2_{0}_ratio'.format(me2_timepoint)
        kla_col = 'kla_lfc'

示例#18

0

显示文件

文件： p300_overlaps.py 项目： karmel/glasslab

from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero
from glasslab.dataanalysis.motifs.motif_analyzer import MotifAnalyzer

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/CD4TCells/Oshea_enhancers/peak_overlaps'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'figures')

    peak_pretty = 'p300'
    peak = peak_pretty.lower()
    th1 = yzer.import_file(
        yzer.get_filename(dirpath,
                          'th1_with_th2_{0}.txt'.format(peak))).fillna(0)
    th2 = yzer.import_file(
        yzer.get_filename(dirpath,
                          'th2_with_th1_{0}.txt'.format(peak))).fillna(0)

    # Filter out promoters
    th1 = th1[th1['tss_id'] == 0]
    th2 = th2[th2['tss_id'] == 0]

    # Get venn-diagram sets
    only_th1 = th1[th1['p2_id'] == 0]
    only_th2 = th2[th2['p2_id'] == 0]
    shared = th1[th1['p2_id'] != 0]
    shared_check = th2[th2['p2_id'] != 0]
    print len(only_th1), len(only_th2), len(shared), len(shared_check)

示例#19

0

显示文件

文件： piechart_redistribution_pairs.py 项目： karmel/glasslab

'''
Created on Oct 8, 2012

@author: karmel
'''
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from matplotlib import pyplot
from glasslab.dataanalysis.misc.gr_project_2012.boxplots_redistribution_pairs import get_high_quality_pairs

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    dirpath = yzer.get_path(dirpath)
    motif_dirpath = yzer.get_filename(dirpath, 'motifs', 'from_peaks')

    transcripts = yzer.import_file(
        yzer.get_filename(dirpath, 'motifs', 'transcript_vectors.txt'))
    transcripts['glass_transcript_id'] = transcripts['id']

    if True:
        all_data = yzer.import_file(
            yzer.get_filename(
                dirpath, 'redistribution',
                'p65_peaks_bigger_in_kla_dex_with_nearby_bigger_kla_peaks.txt')
        )

        data = get_high_quality_pairs(all_data, transcripts)

        data = data.groupby(['id', 'chr_name'], as_index=False).mean()

示例#20

0

显示文件

Note: Made font.weight = bold and axes.titlesize = 24 in matplotlibrc
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import pandas_min
from glasslab.dataanalysis.misc.demoatlas.rpkm_to_score import PrettyAxisGrapher


if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/Glass Atlas/Post_gene_transcripts'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'scatterplots')

    data = yzer.import_file(yzer.get_filename(dirpath,'within_1kb_gap_500bp_with_nc.txt'))
    refseq = yzer.import_file(yzer.get_filename(dirpath,'expressed_refseq_gap_500bp.txt'))
    
    refseq_with_runoff = refseq[refseq['id'].isin(data['gene_id'])]
    refseq_no_runoff = refseq[~refseq['id'].isin(data['gene_id'])]
    if True:
        print len(refseq_no_runoff)
        print refseq_no_runoff.tail(100).to_string()
    
    # Calculate length of runoff
    data['length'] = data['transcription_end'] - data['transcription_start'] + 1
    data['gene_length'] = data['gene_end'] - data['gene_start'] + 1
    
    # What might be correlated with length of runoff?
    if False:
        yzer.scatterplot(data, 'gene_length', 'length', log=True)

示例#21

0

显示文件

'''
Created on Oct 26, 2012

@author: karmel
'''
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from matplotlib import pyplot

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/GR_Analysis/enhancer_classification'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'piecharts_for_genes_by_mechanism')
    
    data = yzer.import_file(yzer.get_filename(dirpath, 'enhancers_with_nearest_gene.txt'))
    data['ucsc_link_nod'] = data['ucsc_link_nod'].apply(lambda s: s.replace('nod_balbc','gr_project_2012'))
    
    draw_pies = True
    min_tags = 30
    ratio = 1.5
    # Make sure we have dimethyl
    data = data[data.filter(like='h3k4me2').max(axis=1) > min_tags]
    data = data[data['minimal_distance'] >= 1000]
    
    #data = yzer.collapse_strands(data)
    
    transcripts = yzer.import_file(yzer.get_filename(dirpath, 'transcript_vectors.txt'))
    transcripts['nearest_refseq_transcript_id'] = transcripts['id']
    # Join, keeping all transcripts
    data = data.merge(transcripts, how='left', on='nearest_refseq_transcript_id', suffixes=['','_trans'])

示例#22

0

显示文件

文件： enhancers_by_gene_length.py 项目： karmel/glasslab

if __name__ == '__main__':
    enhancer_counts = True # Are we looking at enhancer interactions (False) or counts (True)?
    
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/HiC/enhancers_by_gene_length'
    dirpath = yzer.get_path(dirpath)
    
    img_dirpath = yzer.get_and_create_path(dirpath, 'scatterplots')

    counted = enhancer_counts and 'enhancer' or 'interaction'
    
    # The first set has length with interaction counts; 
    # the second has length for all transcripts, even those without interactions.
    # We want to merge such that we add the interaction-less genes with a count of 0.
    data = yzer.import_file(yzer.get_filename(dirpath,'{0}_counts_by_refseq.txt'.format(counted)))
    all_data = yzer.import_file(yzer.get_filename(dirpath,'refseq_all.txt'))
    all_data = all_data[~all_data['id'].isin(data['id'])]
    data = pandas.concat([data, all_data])
    data = data.reset_index().fillna(0)
    
    notx = data[data['sequencing_run_id'] == 765]
    kla_30m = data[data['sequencing_run_id'] == 766]
    kla_4h = data[data['sequencing_run_id'] == 773]
    no_intxns = data[data['sequencing_run_id'] == 0]
    
    # Zero won't show up in a log plot, so add one.
    no_intxns['count'] = 1
    
    
    ax = yzer.scatterplot(no_intxns,

示例#23

0

显示文件

Note: Made font.weight = bold and axes.titlesize = 24, font.size = 16 in matplotlibrc
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/Glass Atlas/Demo-data'
    dirpath = yzer.get_path(dirpath)

    img_dirpath = yzer.get_and_create_path(dirpath,
                                           'refseq_to_homer/large_gap_500bp')

    data = yzer.import_file(
        yzer.get_filename(dirpath, 'refseq_tag_counts_500bp.txt'))
    data['sum'] = nonzero(data['sum'].fillna(0))

    homer_data = yzer.import_file(
        yzer.get_filename(dirpath, 'RNA_GroSeq_CountsGenes.txt'))
    homer_data['sequence_identifier'] = homer_data['Gene ID']
    homer_data['homer_tag_count'] = nonzero(homer_data[
        'ThioMac-GroSeq-notx-110513/ genes (Total: 12166480.0) normFactor 0.82']
                                            .fillna(0))
    homer_data = homer_data[['sequence_identifier', 'homer_tag_count']]

    merged = data.merge(homer_data, how='inner', on='sequence_identifier')
    merged = merged.fillna(1)

    if True:
        ax = yzer.scatterplot(merged,

示例#24

0

显示文件

@author: karmel

Note: Made font.weight = normal and axes.titlesize = 24 in matplotlibrc
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.dataanalysis.misc.demoatlas.rpkm_to_score import PrettyAxisGrapher

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/Glass Atlas/NAR_review_data/Post-gene'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'scatterplots')

    data = yzer.import_file(
        yzer.get_filename(dirpath, 'post_gene_transcripts.txt'))
    refseq = yzer.import_file(
        yzer.get_filename(dirpath, 'all_expressed_refseq.txt'))

    refseq_with_runoff = refseq[refseq['id'].isin(data['gene_id'])]
    refseq_no_runoff = refseq[~refseq['id'].isin(data['gene_id'])]
    if False:
        print len(refseq_no_runoff)
        print refseq_no_runoff.tail(100).to_string()

    # Calculate length of runoff
    data[
        'length'] = data['transcription_end'] - data['transcription_start'] + 1
    data['gene_length'] = data['gene_end'] - data['gene_start'] + 1

    # What might be correlated with length of runoff?

示例#25

0

显示文件

文件： boxplots_of_enhancer_expression.py 项目： karmel/glasslab

from matplotlib import pyplot
from glasslab.utils.functions import nonzero
from glasslab.dataanalysis.misc.gr_project_2012.v1.elongation import total_tags_per_run

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/GR_Analysis/enhancer_classification'
    dirpath = yzer.get_path(dirpath)

    consistent = False
    img_dirpath = yzer.get_and_create_path(
        dirpath, 'boxplots_by_expression', consistent and 'consistent'
        or 'rep1')

    data = yzer.import_file(
        yzer.get_filename(dirpath, 'enhancers_with_nearest_gene.txt'))
    data['ucsc_link_nod'] = data['ucsc_link_nod'].apply(
        lambda s: s.replace('nod_balbc', 'gr_project_2012'))

    draw_pies = True
    min_tags = 30
    ratio = 1.5
    # Make sure we have dimethyl
    data = data[data.filter(like='h3k4me2').max(axis=1) > min_tags]
    data = data[data['minimal_distance'] >= 1000]

    transcripts = yzer.import_file(
        yzer.get_filename(dirpath, 'transcript_vectors.txt'))
    transcripts['nearest_refseq_transcript_id'] = transcripts['id']
    data = data.merge(transcripts,
                      how='left',

示例#26

0

显示文件

文件： novel_interactions_kla_lfc_boxplots.py 项目： karmel/glasslab

'''
Created on Jan 9, 2013

@author: karmel

Do novel interactions gain or lose me2? 
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/HiC/'
    dirpath = yzer.get_path(dirpath)
    data_dirpath = yzer.get_filename(dirpath, 'enhancer_sets')
    img_dirpath = yzer.get_and_create_path(dirpath,
                                           'novel_interactions_kla_lfc',
                                           'all_interactions')

    interactions = yzer.import_file(
        yzer.get_filename(
            data_dirpath,
            'transcript_pairs_enhancer_with_anything_with_me2_inc_me2_counts.txt'
        ))
    interactions = interactions[interactions['count'] > 1]

    all_transcripts = yzer.import_file(
        yzer.get_filename(data_dirpath, 'transcript_vectors.txt'))

    kla_col = 'kla_lfc'

示例#27

0

显示文件

文件： peak_to_transcript_boxplots.py 项目： karmel/glasslab

'''
Created on Sep 7, 2012

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher


if __name__ == '__main__':
    grapher = SeqGrapher()
    base_dirpath = 'karmel/Desktop/Projects/Classes/Rotations/Finland_2012/GR_Project/'
    base_dirpath = grapher.get_path(base_dirpath)
    dirpath = grapher.get_filename(base_dirpath, 'motifs')
    filename = grapher.get_filename(dirpath, 'transcript_vectors.txt')
    
    data = grapher.import_file(filename)
    
    
    # Boxplots for gr_dex peaks by lfc in Dex
    if False:
        #data = data[data['distal'] == 't']
        data = data[data['has_refseq'] == 1]
        
        down = data[data['dex_1_lfc'] <= -1]
        up = data[data['dex_1_lfc'] >= 1]
        nc = data[abs(data['dex_1_lfc']) < 1]
        
        key = 'p65_kla_tag_count'
        datasets = [down[key],nc[key],up[key]]
        datasets = [d['p65_kla_dex_tag_count'] - d[key] for d in [down, nc, up]]

示例#28

0

显示文件

文件： srf_binding.py 项目： karmel/glasslab

Created on Feb 12, 2013

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.dataanalysis.motifs.motif_analyzer import MotifAnalyzer

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/NOD_BALBc/ThioMacs/Analysis_2013_02/'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'srf_binding')
    data = yzer.import_file(
        yzer.get_filename(dirpath, 'transcript_vectors.txt'))

    data = data.fillna(0)
    data = data[data[['nod_notx_1h_tag_count', 'balb_notx_1h_tag_count']].max(
        axis=1) >= 10]

    subsets = [
        data,
        data[(data['has_refseq'] == 1) & (data['transcript_score'] >= 4)],
        data[(data['distal'] == 't') & (data['h3k4me2_tag_count'] > 10)]
    ]

    # Add in nearest genes for enhancers
    enh = subsets[2].copy()
    nearest_genes = yzer.import_file(
        yzer.get_filename(dirpath, 'enhancers_with_nearest_genes.txt'))

示例#29

0

显示文件

'''
Created on Jan 30, 2013

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from collections import OrderedDict

if __name__ == '__main__':
    yzer = SeqGrapher()
    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/HiC/'
    dirpath = yzer.get_path(dirpath)
    data_dirpath = yzer.get_filename(dirpath, 'enhancer_rewiring_lfc')
    transcripts = yzer.import_file(
        yzer.get_filename(dirpath, 'enhancer_sets', 'transcript_vectors.txt'))

    sets = OrderedDict((
        ('all',
         yzer.import_file(yzer.get_filename(data_dirpath, 'all_vectors.cdt'))),
        #('all_6h', yzer.import_file(yzer.get_filename(data_dirpath,'kla_6h','all_vectors.cdt'))),
        ('rewired',
         yzer.import_file(
             yzer.get_filename(data_dirpath, 'rewired_vectors.cdt'))),
        #('rewired_6h', yzer.import_file(yzer.get_filename(data_dirpath,'kla_6h','rewired_vectors.cdt'))),
        ('shared',
         yzer.import_file(yzer.get_filename(data_dirpath,
                                            'shared_vectors.cdt'))),
    ))

    for key, val in sets.items():

示例#30

0

显示文件

文件： p300_with_ctcf_binding.py 项目： karmel/glasslab

@author: karmel
'''
from __future__ import division
from glasslab.dataanalysis.graphing.seq_grapher import SeqGrapher
from glasslab.utils.functions import nonzero

if __name__ == '__main__':
    yzer = SeqGrapher()

    dirpath = 'karmel/Desktop/Projects/GlassLab/Notes_and_Reports/CD4TCells/Oshea_enhancers/peak_overlaps'
    dirpath = yzer.get_path(dirpath)
    img_dirpath = yzer.get_and_create_path(dirpath, 'figures')

    peak = 'p300'
    th1 = yzer.import_file(
        yzer.get_filename(dirpath,
                          'th1_with_th2_{0}.txt'.format(peak))).fillna(0)
    th2 = yzer.import_file(
        yzer.get_filename(dirpath,
                          'th2_with_th1_{0}.txt'.format(peak))).fillna(0)

    # Filter out promoters
    th1 = th1[th1['tss_id'] == 0]
    th2 = th2[th2['tss_id'] == 0]

    th1['th1_tag_count'] = nonzero(th1['tag_count'])
    th1['th2_tag_count'] = nonzero(th1['p2_tag_count'])
    th2['th1_tag_count'] = nonzero(th2['tag_count'])
    th2['th2_tag_count'] = nonzero(th2['p2_tag_count'])

    with_ctcf = th1[th1['ctcf_tag_count'] > 0]
    without_ctcf = th1[th1['ctcf_tag_count'] == 0]