[tvigle] Extract format file sizes

[youtube-dl] / youtube_dl / utils.py
diff --git a/youtube_dl/utils.py b/youtube_dl/utils.py

index 3ac0f1f541745b1ec34f1245574ea82387c3115d..f05747097738b806fcc383136fac6e34078f2f72 100644 (file)
--- a/youtube_dl/utils.py
+++ b/youtube_dl/utils.py
@@ -799,6 +799,12 @@ class YoutubeDLHandler(compat_urllib_request.HTTPHandler):
                  del req.headers['User-agent']
              req.headers['User-agent'] = req.headers['Youtubedl-user-agent']
              del req.headers['Youtubedl-user-agent']
+
+        if sys.version_info < (2, 7) and '#' in req.get_full_url():
+            # Python 2.6 is brain-dead when it comes to fragments
+            req._Request__original = req._Request__original.partition('#')[0]
+            req._Request__r_type = req._Request__r_type.partition('#')[0]
+
          return req
  
      def http_response(self, req, resp):
@@ -884,6 +890,7 @@ def unified_strdate(date_str):
          '%d/%m/%Y',
          '%d/%m/%y',
          '%Y/%m/%d %H:%M:%S',
+        '%d/%m/%Y %H:%M:%S',
          '%Y-%m-%d %H:%M:%S',
          '%d.%m.%Y %H:%M',
          '%d.%m.%Y %H.%M',
@@ -1384,14 +1391,16 @@ def check_executable(exe, args=[]):
  
  
  class PagedList(object):
-    def __init__(self, pagefunc, pagesize):
-        self._pagefunc = pagefunc
-        self._pagesize = pagesize
-
      def __len__(self):
          # This is only useful for tests
          return len(self.getslice())
  
+
+class OnDemandPagedList(PagedList):
+    def __init__(self, pagefunc, pagesize):
+        self._pagefunc = pagefunc
+        self._pagesize = pagesize
+
      def getslice(self, start=0, end=None):
          res = []
          for pagenum in itertools.count(start // self._pagesize):
@@ -1430,6 +1439,35 @@ class PagedList(object):
          return res
  
  
+class InAdvancePagedList(PagedList):
+    def __init__(self, pagefunc, pagecount, pagesize):
+        self._pagefunc = pagefunc
+        self._pagecount = pagecount
+        self._pagesize = pagesize
+
+    def getslice(self, start=0, end=None):
+        res = []
+        start_page = start // self._pagesize
+        end_page = (
+            self._pagecount if end is None else (end // self._pagesize + 1))
+        skip_elems = start - start_page * self._pagesize
+        only_more = None if end is None else end - start
+        for pagenum in range(start_page, end_page):
+            page = list(self._pagefunc(pagenum))
+            if skip_elems:
+                page = page[skip_elems:]
+                skip_elems = None
+            if only_more is not None:
+                if len(page) < only_more:
+                    only_more -= len(page)
+                else:
+                    page = page[:only_more]
+                    res.extend(page)
+                    break
+            res.extend(page)
+        return res
+
+
  def uppercase_escape(s):
      unicode_escape = codecs.getdecoder('unicode_escape')
      return re.sub(
@@ -1437,6 +1475,24 @@ def uppercase_escape(s):
          lambda m: unicode_escape(m.group(0))[0],
          s)
  
+
+def escape_rfc3986(s):
+    """Escape non-ASCII characters as suggested by RFC 3986"""
+    if sys.version_info < (3, 0) and isinstance(s, unicode):
+        s = s.encode('utf-8')
+    return compat_urllib_parse.quote(s, "%/;:@&=+$,!~*'()?#[]")
+
+
+def escape_url(url):
+    """Escape URL as suggested by RFC 3986"""
+    url_parsed = compat_urllib_parse_urlparse(url)
+    return url_parsed._replace(
+        path=escape_rfc3986(url_parsed.path),
+        params=escape_rfc3986(url_parsed.params),
+        query=escape_rfc3986(url_parsed.query),
+        fragment=escape_rfc3986(url_parsed.fragment)
+    ).geturl()
+
  try:
      struct.pack(u'!I', 0)
  except TypeError: