[webofstories:playlist] Fix extraction (closes #16914)

[youtube-dl] / youtube_dl / utils.py
diff --git a/youtube_dl/utils.py b/youtube_dl/utils.py

index 63f24c0b646635b65f62e1b162dcdebf8e6a72d9..0c830ba71fbde4f2e519e1f10857cfe5e9da6c56 100644 (file)
--- a/youtube_dl/utils.py
+++ b/youtube_dl/utils.py
@@ -82,7 +82,7 @@ def register_socks_protocols():
  compiled_regex_type = type(re.compile(''))
  
  std_headers = {
-    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:59.0) Gecko/20100101 Firefox/59.0 (Chrome)',
+    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:59.0) Gecko/20100101 Firefox/59.0',
      'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.7',
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Encoding': 'gzip, deflate',
@@ -184,6 +184,7 @@ DATE_FORMATS_MONTH_FIRST.extend([
  ])
  
  PACKED_CODES_RE = r"}\('(.+)',(\d+),(\d+),'([^']+)'\.split\('\|'\)"
+JSON_LD_RE = r'(?is)<script[^>]+type=(["\'])application/ld\+json\1[^>]*>(?P<json_ld>.+?)</script>'
  
  
  def preferredencoding():
@@ -1228,7 +1229,7 @@ def unified_timestamp(date_str, day_first=True):
  
  
  def determine_ext(url, default_ext='unknown_video'):
-    if url is None:
+    if url is None or '.' not in url:
          return default_ext
      guess = url.partition('?')[0].rpartition('.')[2]
      if re.match(r'^[A-Za-z0-9]+$', guess):
@@ -1865,6 +1866,13 @@ def strip_or_none(v):
      return None if v is None else v.strip()
  
  
+def url_or_none(url):
+    if not url or not isinstance(url, compat_str):
+        return None
+    url = url.strip()
+    return url if re.match(r'^(?:[a-zA-Z][\da-zA-Z.+-]*:)?//', url) else None
+
+
  def parse_duration(s):
      if not isinstance(s, compat_basestring):
          return None
@@ -2281,7 +2289,7 @@ def parse_age_limit(s):
  def strip_jsonp(code):
      return re.sub(
          r'''(?sx)^
-            (?:window\.)?(?P<func_name>[a-zA-Z0-9_.$]+)
+            (?:window\.)?(?P<func_name>[a-zA-Z0-9_.$]*)
              (?:\s*&&\s*(?P=func_name))?
              \s*\(\s*(?P<callback_data>.*)\);?
              \s*?(?://[^\n]*)*$''',
@@ -3561,7 +3569,7 @@ class PerRequestProxyHandler(compat_urllib_request.ProxyHandler):
              setattr(self, '%s_open' % type,
                      lambda r, proxy='__noproxy__', type=type, meth=self.proxy_open:
                          meth(r, proxy, type))
-        return compat_urllib_request.ProxyHandler.__init__(self, proxies)
+        compat_urllib_request.ProxyHandler.__init__(self, proxies)
  
      def proxy_open(self, req, proxy, type):
          req_proxy = req.headers.get('Ytdl-request-proxy')