Python UTF8Prober示例

编程语言: Python

命名空间/包名称: utf8prober

类/类型: UTF8Prober

hotexamples.com的示例: 3

Python UTF8Prober - 已找到3个示例。这些是从开源项目中提取的最受好评的utf8prober.UTF8Prober现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

UTF8Prober(3)

常用方法

UTF8Prober (3)

示例#1

显示文件

文件： mbcsgroupprober.py 项目： norhap/enigma2-plugins-1

 def __init__(self):
     CharSetGroupProber.__init__(self)
     self._mProbers = [ \
         UTF8Prober(),
         SJISProber(),
         EUCJPProber(),
         GB2312Prober(),
         EUCKRProber(),
         Big5Prober(),
         EUCTWProber()]
     self.reset()

示例#2

显示文件

文件： mbcsgroupprober.py 项目： pombredanne/chardet-3

 def __init__(self):
     CharSetGroupProber.__init__(self)
     self._mProbers = [ \
         UTF8Prober(),
         SJISProber(),
         EUCJPProber(),
         GB18030Prober(),
         CP949Prober(),
         Big5Prober(),
         EUCTWProber()]
     self.reset()

示例#3

显示文件

文件： universaldetector.py 项目： eviljeff/fastchardet

    def feed(self, aBuf):
        if isinstance(aBuf, unicode):
            self.result = {'encoding': "unicode", 'confidence': 1.0}
            self.done = constants. True
            return

        if self.done: return

        aLen = len(aBuf)
        if not aLen: return

        if not self._mGotData:
            # If the data starts with BOM, we know it is UTF
            if aBuf[:3] == '\xEF\xBB\xBF':
                # EF BB BF  UTF-8 with BOM
                self.result = {'encoding': "utf_8", 'confidence': 1.0}
            elif aBuf[:4] in ('\xFF\xFE\x00\x00',
                              '\x00\x00\xFE\xFF',
                              '\xFE\xFF\x00\x00',
                              '\x00\x00\xFF\xFE') or \
                 aBuf[:2] in ('\xFF\xFE', '\xFE\xFF'):
                self.result = {'encoding': "utf_n", 'confidence': 1.0}

        self._mGotData = constants. True
        if self.result['encoding'] and (self.result['confidence'] > 0.0):
            self.done = constants. True
            return

        if self._mInputState == ePureAscii:
            if self._highBitDetector.search(aBuf):
                self._mInputState = eHighbyte
            elif self._escDetector.search(self._mLastChar + aBuf):
                self._mInputState = eEscAscii

        self._mLastChar = aBuf[-1]

        if self._mInputState == eEscAscii:
            self.result = {'encoding': "escaped", 'confidence': 1.0}
            self.done = constants. True
        elif self._mInputState == eHighbyte:
            if not self._mCharSetProbers:
                self._mCharSetProbers = [UTF8Prober(), Latin1Prober()]
            for prober in self._mCharSetProbers:
                if prober.feed(aBuf) == constants.eFoundIt:
                    self.result = {
                        'encoding': prober.get_charset_name(),
                        'confidence': prober.get_confidence()
                    }
                    self.done = constants. True
                    break