Python partialSuffixArray Examples

Programming Language: Python

Namespace/Package Name: partialSuffixArray

Method/Function: partialSuffixArray

Examples at hotexamples.com: 4

Python partialSuffixArray - 4 examples found. These are the top rated real world Python examples of partialSuffixArray.partialSuffixArray extracted from open source projects. You can rate examples to help us improve the quality of examples.

Example #1

Show file

File: Code6_15_MultipleApproximatePatternMatching.py Project: aprilchunyuzhao/BioinformaticsFromCoursera

def multipleApproximatePatternMatching(text,patterns,d):
	lastC = BWT.BWT(text)
	firstOccur = BWTMatch.firstOccurrence(lastC)

	partialsuffixarray = partialSuffixArray.partialSuffixArray(text, K)
	checkpointarray = mpm.checkPointArray(lastC, C)
	suffixarray,suffixes = mpm.suffixArray(text)

	positions = []
	for pattern in patterns:
		'''seed preparation:divide pattern into d + 1 substring, with the length floor(n/(d+1))'''
		n = len(pattern)
		k = n / (d+1)
		#print "pattern",pattern,"n",n,"k",k,"d",d
		# for each pattern, if we hits same position in the text multiple times, we only keep one record.
		posstarts = []
		for i in range(d+1):
			if i == d:
				pat = pattern[i*k:]
			else:
				pat = pattern[i*k:(i+1)*k]
			'''seed detection: for each seed (pat), do exact pattern matching to find which seeds match Text exactly'''
			position = mpm.PatternMatching(suffixarray,firstOccur,lastC,checkpointarray,partialsuffixarray,pat)
			
			if position is not None:
				for pos in position:
					'''seed extension: extend seeds in both directions to verify whether Pattern occurs in Text with at most d mismatches.'''
					posstart = pos-k*i
					dist = hamming_distance(text[posstart:posstart+n],pattern)
					if dist is not None and dist <= d:
						posstarts.append(posstart)
		positions.extend(list(set(posstarts)))
	return positions

Example #2

Show file

File: Code6_14_MultiplePatternMatching.py Project: aprilchunyuzhao/BioinformaticsFromCoursera

def multiplePatternMatching(text, patterns):
	"""Input that I can use: LastColumn, FirstOccurrence, CheckPointArray, PartialSuffixArray"""
	lastC = BWT.BWT(text)
	firstOccur = BWTMatch.firstOccurrence(lastC)

	partialsuffixarray = partialSuffixArray.partialSuffixArray(text, K)
	checkpointarray = checkPointArray(lastC, C)
	suffixarray,suffixes = suffixArray(text)

	positions = []
	for pattern in patterns:
		position = PatternMatching(suffixarray,firstOccur,lastC,checkpointarray,partialsuffixarray,pattern)
		if position is not None:
			for pos in position:
				positions.append(pos)
	return positions

Example #3

Show file

def multiplePatternMatching(text, patterns):
    """Input that I can use: LastColumn, FirstOccurrence, CheckPointArray, PartialSuffixArray"""
    lastC = BWT.BWT(text)
    firstOccur = BWTMatch.firstOccurrence(lastC)

    partialsuffixarray = partialSuffixArray.partialSuffixArray(text, K)
    checkpointarray = checkPointArray(lastC, C)
    suffixarray, suffixes = suffixArray(text)

    positions = []
    for pattern in patterns:
        position = PatternMatching(suffixarray, firstOccur, lastC,
                                   checkpointarray, partialsuffixarray,
                                   pattern)
        if position is not None:
            for pos in position:
                positions.append(pos)
    return positions

Example #4

Show file

File: Code6_15_MultipleApproximatePatternMatching.py Project: zhaoc1/BioinformaticsFromCoursera

def multipleApproximatePatternMatching(text, patterns, d):
    lastC = BWT.BWT(text)
    firstOccur = BWTMatch.firstOccurrence(lastC)

    partialsuffixarray = partialSuffixArray.partialSuffixArray(text, K)
    checkpointarray = mpm.checkPointArray(lastC, C)
    suffixarray, suffixes = mpm.suffixArray(text)

    positions = []
    for pattern in patterns:
        '''seed preparation:divide pattern into d + 1 substring, with the length floor(n/(d+1))'''
        n = len(pattern)
        k = n / (d + 1)
        #print "pattern",pattern,"n",n,"k",k,"d",d
        # for each pattern, if we hits same position in the text multiple times, we only keep one record.
        posstarts = []
        for i in range(d + 1):
            if i == d:
                pat = pattern[i * k:]
            else:
                pat = pattern[i * k:(i + 1) * k]
            '''seed detection: for each seed (pat), do exact pattern matching to find which seeds match Text exactly'''
            position = mpm.PatternMatching(suffixarray, firstOccur, lastC,
                                           checkpointarray, partialsuffixarray,
                                           pat)

            if position is not None:
                for pos in position:
                    '''seed extension: extend seeds in both directions to verify whether Pattern occurs in Text with at most d mismatches.'''
                    posstart = pos - k * i
                    dist = hamming_distance(text[posstart:posstart + n],
                                            pattern)
                    if dist is not None and dist <= d:
                        posstarts.append(posstart)
        positions.extend(list(set(posstarts)))
    return positions