Remove ur references for Python 3.3 support
[youtube-dl] / youtube_dl / utils.py
index 1f60d34ae23ad2f36b54072e0b133d3cd2a22149..ccefc66a089c4b1c118651d36aefa7e7ba304a28 100644 (file)
@@ -9,7 +9,6 @@ import os
 import re
 import sys
 import zlib
-import urllib2
 import email.utils
 import json
 
@@ -27,9 +26,29 @@ std_headers = {
 }
 
 try:
-    compat_str = unicode # Python 2
+       compat_str = unicode # Python 2
 except NameError:
-    compat_str = str
+       compat_str = str
+
+try:
+       import urllib.request as compat_urllib_request
+except ImportError: # Python 2
+       import urllib2 as compat_urllib_request
+
+try:
+       import urllib.error as compat_urllib_error
+except ImportError: # Python 2
+       import urllib2 as compat_urllib_error
+
+try:
+       import urllib.parse as compat_urllib_parse
+except ImportError: # Python 2
+       import urllib2 as compat_urllib_parse
+
+try:
+       import http.cookiejar as compat_cookiejar
+except ImportError: # Python 2
+       import cookielib as compat_cookiejar
 
 def preferredencoding():
        """Get preferred encoding.
@@ -37,19 +56,17 @@ def preferredencoding():
        Returns the best encoding scheme for the system, based on
        locale.getpreferredencoding() and some further tweaks.
        """
-       def yield_preferredencoding():
-               try:
-                       pref = locale.getpreferredencoding()
-                       u'TEST'.encode(pref)
-               except:
-                       pref = 'UTF-8'
-               while True:
-                       yield pref
-       return yield_preferredencoding().next()
+       try:
+               pref = locale.getpreferredencoding()
+               u'TEST'.encode(pref)
+       except:
+               pref = 'UTF-8'
+
+       return pref
 
 
 def htmlentity_transform(matchobj):
-       """Transforms an HTML entity to a Unicode character.
+       """Transforms an HTML entity to a character.
 
        This function receives a match object and is intended to be used with
        the re.sub() function.
@@ -60,8 +77,7 @@ def htmlentity_transform(matchobj):
        if entity in htmlentitydefs.name2codepoint:
                return unichr(htmlentitydefs.name2codepoint[entity])
 
-       # Unicode character
-       mobj = re.match(ur'(?u)#(x?\d+)', entity)
+       mobj = re.match(u'(?u)#(x?\\d+)', entity)
        if mobj is not None:
                numstr = mobj.group(1)
                if numstr.startswith(u'x'):
@@ -69,7 +85,7 @@ def htmlentity_transform(matchobj):
                        numstr = u'0%s' % numstr
                else:
                        base = 10
-               return unichr(long(numstr, base))
+               return unichr(int(numstr, base))
 
        # Unknown entity in name, return its literal representation
        return (u'&%s;' % entity)
@@ -128,8 +144,10 @@ class IDParser(HTMLParser.HTMLParser):
        handle_decl = handle_pi = unknown_decl = find_startpos
 
        def get_result(self):
-               if self.result == None: return None
-               if len(self.result) != 3: return None
+               if self.result is None:
+                       return None
+               if len(self.result) != 3:
+                       return None
                lines = self.html.split('\n')
                lines = lines[self.result[1][0]-1:self.result[2][0]]
                lines[0] = lines[0][self.result[1][1]:]
@@ -178,9 +196,9 @@ def sanitize_open(filename, open_mode):
                        return (sys.stdout, filename)
                stream = open(encodeFilename(filename), open_mode)
                return (stream, filename)
-       except (IOError, OSError), err:
+       except (IOError, OSError) as err:
                # In case of error, try to remove win32 forbidden chars
-               filename = re.sub(ur'[/<>:"\|\?\*]', u'#', filename)
+               filename = re.sub(u'[/<>:"\\|\\\\?\\*]', u'#', filename)
 
                # An exception here should be caught in the caller
                stream = open(encodeFilename(filename), open_mode)
@@ -207,15 +225,23 @@ def sanitize_filename(s, restricted=False):
                elif char == ':':
                        return '_-' if restricted else ' -'
                elif char in '\\/|*<>':
-                       return '-'
-               if restricted and (char in '&\'' or char.isspace()):
+                       return '_'
+               if restricted and (char in '!&\'' or char.isspace()):
+                       return '_'
+               if restricted and ord(char) > 127:
                        return '_'
                return char
 
        result = u''.join(map(replace_insane, s))
-       while '--' in result:
-               result = result.replace('--', '-')
-       return result.strip('-')
+       while '__' in result:
+               result = result.replace('__', '_')
+       result = result.strip('_')
+       # Common case of "Foreign band name - English song title"
+       if restricted and result.startswith('-_'):
+               result = result[2:]
+       if not result:
+               result = '_'
+       return result
 
 def orderedSet(iterable):
        """ Remove all duplicates from the input iterable """
@@ -227,16 +253,16 @@ def orderedSet(iterable):
 
 def unescapeHTML(s):
        """
-       @param s a string (of type unicode)
+       @param s a string
        """
        assert type(s) == type(u'')
 
-       result = re.sub(ur'(?u)&(.+?);', htmlentity_transform, s)
+       result = re.sub(u'(?u)&(.+?);', htmlentity_transform, s)
        return result
 
 def encodeFilename(s):
        """
-       @param s The name of the file (of type unicode)
+       @param s The name of the file
        """
 
        assert type(s) == type(u'')
@@ -308,12 +334,12 @@ class ContentTooShortError(Exception):
 
 class Trouble(Exception):
        """Trouble helper exception
-       
+
        This is an exception to be handled with
        FileDownloader.trouble
        """
 
-class YoutubeDLHandler(urllib2.HTTPHandler):
+class YoutubeDLHandler(compat_urllib_request.HTTPHandler):
        """Handler for HTTP requests and responses.
 
        This class, when installed with an OpenerDirector, automatically adds
@@ -340,9 +366,9 @@ class YoutubeDLHandler(urllib2.HTTPHandler):
 
        @staticmethod
        def addinfourl_wrapper(stream, headers, url, code):
-               if hasattr(urllib2.addinfourl, 'getcode'):
-                       return urllib2.addinfourl(stream, headers, url, code)
-               ret = urllib2.addinfourl(stream, headers, url)
+               if hasattr(compat_urllib_request.addinfourl, 'getcode'):
+                       return compat_urllib_request.addinfourl(stream, headers, url, code)
+               ret = compat_urllib_request.addinfourl(stream, headers, url)
                ret.code = code
                return ret