Fix W504 and disable W503 (closes #20863)

[youtube-dl] / youtube_dl / extractor / generic.py
diff --git a/youtube_dl/extractor/generic.py b/youtube_dl/extractor/generic.py

index 83a31f3d3d67cc52cf1c1dbb0457e973c8b68e28..3a13c62eb60b5ce2600c96814cb29176a29d0270 100644 (file)
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@@ -32,7 +32,6 @@ from ..utils import (
      unified_strdate,
      unsmuggle_url,
      UnsupportedError,
      unified_strdate,
      unsmuggle_url,
      UnsupportedError,
-    url_or_none,
      xpath_text,
  )
  from .commonprotocols import RtmpIE
      xpath_text,
  )
  from .commonprotocols import RtmpIE
@@ -48,7 +47,7 @@ from .nbc import NBCSportsVPlayerIE
  from .ooyala import OoyalaIE
  from .rutv import RUTVIE
  from .tvc import TVCIE
  from .ooyala import OoyalaIE
  from .rutv import RUTVIE
  from .tvc import TVCIE
-from .sportbox import SportBoxEmbedIE
+from .sportbox import SportBoxIE
  from .smotri import SmotriIE
  from .myvi import MyviIE
  from .condenast import CondeNastIE
  from .smotri import SmotriIE
  from .myvi import MyviIE
  from .condenast import CondeNastIE
@@ -90,7 +89,10 @@ from .piksel import PikselIE
  from .videa import VideaIE
  from .twentymin import TwentyMinutenIE
  from .ustream import UstreamIE
  from .videa import VideaIE
  from .twentymin import TwentyMinutenIE
  from .ustream import UstreamIE
-from .openload import OpenloadIE
+from .openload import (
+    OpenloadIE,
+    VerystreamIE,
+)
  from .videopress import VideoPressIE
  from .rutube import RutubeIE
  from .limelight import LimelightBaseIE
  from .videopress import VideoPressIE
  from .rutube import RutubeIE
  from .limelight import LimelightBaseIE
@@ -110,11 +112,13 @@ from .vice import ViceIE
  from .xfileshare import XFileShareIE
  from .cloudflarestream import CloudflareStreamIE
  from .peertube import PeerTubeIE
  from .xfileshare import XFileShareIE
  from .cloudflarestream import CloudflareStreamIE
  from .peertube import PeerTubeIE
+from .teachable import TeachableIE
  from .indavideo import IndavideoEmbedIE
  from .apa import APAIE
  from .foxnews import FoxNewsIE
  from .viqeo import ViqeoIE
  from .expressen import ExpressenIE
  from .indavideo import IndavideoEmbedIE
  from .apa import APAIE
  from .foxnews import FoxNewsIE
  from .viqeo import ViqeoIE
  from .expressen import ExpressenIE
+from .zype import ZypeIE
  
  
  class GenericIE(InfoExtractor):
  
  
  class GenericIE(InfoExtractor):
@@ -429,7 +433,7 @@ class GenericIE(InfoExtractor):
              },
          },
          {
              },
          },
          {
-            # https://github.com/rg3/youtube-dl/issues/2253
+            # https://github.com/ytdl-org/youtube-dl/issues/2253
              'url': 'http://bcove.me/i6nfkrc3',
              'md5': '0ba9446db037002366bab3b3eb30c88c',
              'info_dict': {
              'url': 'http://bcove.me/i6nfkrc3',
              'md5': '0ba9446db037002366bab3b3eb30c88c',
              'info_dict': {
@@ -454,7 +458,7 @@ class GenericIE(InfoExtractor):
              },
          },
          {
              },
          },
          {
-            # https://github.com/rg3/youtube-dl/issues/3541
+            # https://github.com/ytdl-org/youtube-dl/issues/3541
              'add_ie': ['BrightcoveLegacy'],
              'url': 'http://www.kijk.nl/sbs6/leermijvrouwenkennen/videos/jqMiXKAYan2S/aflevering-1',
              'info_dict': {
              'add_ie': ['BrightcoveLegacy'],
              'url': 'http://www.kijk.nl/sbs6/leermijvrouwenkennen/videos/jqMiXKAYan2S/aflevering-1',
              'info_dict': {
@@ -918,7 +922,7 @@ class GenericIE(InfoExtractor):
              }
          },
          # Multiple brightcove videos
              }
          },
          # Multiple brightcove videos
-        # https://github.com/rg3/youtube-dl/issues/2283
+        # https://github.com/ytdl-org/youtube-dl/issues/2283
          {
              'url': 'http://www.newyorker.com/online/blogs/newsdesk/2014/01/always-never-nuclear-command-and-control.html',
              'info_dict': {
          {
              'url': 'http://www.newyorker.com/online/blogs/newsdesk/2014/01/always-never-nuclear-command-and-control.html',
              'info_dict': {
@@ -2071,6 +2075,35 @@ class GenericIE(InfoExtractor):
              },
              'playlist_count': 6,
          },
              },
              'playlist_count': 6,
          },
+        {
+            # Zype embed
+            'url': 'https://www.cookscountry.com/episode/554-smoky-barbecue-favorites',
+            'info_dict': {
+                'id': '5b400b834b32992a310622b9',
+                'ext': 'mp4',
+                'title': 'Smoky Barbecue Favorites',
+                'thumbnail': r're:^https?://.*\.jpe?g',
+            },
+            'add_ie': [ZypeIE.ie_key()],
+            'params': {
+                'skip_download': True,
+            },
+        },
+        {
+            # videojs embed
+            'url': 'https://video.sibnet.ru/shell.php?videoid=3422904',
+            'info_dict': {
+                'id': 'shell',
+                'ext': 'mp4',
+                'title': 'Доставщик пиццы спросил разрешения сыграть на фортепиано',
+                'description': 'md5:89209cdc587dab1e4a090453dbaa2cb1',
+                'thumbnail': r're:^https?://.*\.jpg$',
+            },
+            'params': {
+                'skip_download': True,
+            },
+            'expected_warnings': ['Failed to download MPD manifest'],
+        },
          # {
          #     # TODO: find another test
          #     # http://schema.org/VideoObject
          # {
          #     # TODO: find another test
          #     # http://schema.org/VideoObject
@@ -2167,10 +2200,7 @@ class GenericIE(InfoExtractor):
  
      def _real_extract(self, url):
          if url.startswith('//'):
  
      def _real_extract(self, url):
          if url.startswith('//'):
-            return {
-                '_type': 'url',
-                'url': self.http_scheme() + url,
-            }
+            return self.url_result(self.http_scheme() + url)
  
          parsed_url = compat_urlparse.urlparse(url)
          if not parsed_url.scheme:
  
          parsed_url = compat_urlparse.urlparse(url)
          if not parsed_url.scheme:
@@ -2344,7 +2374,7 @@ class GenericIE(InfoExtractor):
              return camtasia_res
  
          # Sometimes embedded video player is hidden behind percent encoding
              return camtasia_res
  
          # Sometimes embedded video player is hidden behind percent encoding
-        # (e.g. https://github.com/rg3/youtube-dl/issues/2448)
+        # (e.g. https://github.com/ytdl-org/youtube-dl/issues/2448)
          # Unescaping the whole page allows to handle those cases in a generic way
          webpage = compat_urllib_parse_unquote(webpage)
  
          # Unescaping the whole page allows to handle those cases in a generic way
          webpage = compat_urllib_parse_unquote(webpage)
  
@@ -2519,11 +2549,11 @@ class GenericIE(InfoExtractor):
              return self.url_result(mobj.group('url'))
  
          # Look for Ooyala videos
              return self.url_result(mobj.group('url'))
  
          # Look for Ooyala videos
-        mobj = (re.search(r'player\.ooyala\.com/[^"?]+[?#][^"]*?(?:embedCode|ec)=(?P<ec>[^"&]+)', webpage) or
-                re.search(r'OO\.Player\.create\([\'"].*?[\'"],\s*[\'"](?P<ec>.{32})[\'"]', webpage) or
-                re.search(r'OO\.Player\.create\.apply\(\s*OO\.Player\s*,\s*op\(\s*\[\s*[\'"][^\'"]*[\'"]\s*,\s*[\'"](?P<ec>.{32})[\'"]', webpage) or
-                re.search(r'SBN\.VideoLinkset\.ooyala\([\'"](?P<ec>.{32})[\'"]\)', webpage) or
-                re.search(r'data-ooyala-video-id\s*=\s*[\'"](?P<ec>.{32})[\'"]', webpage))
+        mobj = (re.search(r'player\.ooyala\.com/[^"?]+[?#][^"]*?(?:embedCode|ec)=(?P<ec>[^"&]+)', webpage)
+                or re.search(r'OO\.Player\.create\([\'"].*?[\'"],\s*[\'"](?P<ec>.{32})[\'"]', webpage)
+                or re.search(r'OO\.Player\.create\.apply\(\s*OO\.Player\s*,\s*op\(\s*\[\s*[\'"][^\'"]*[\'"]\s*,\s*[\'"](?P<ec>.{32})[\'"]', webpage)
+                or re.search(r'SBN\.VideoLinkset\.ooyala\([\'"](?P<ec>.{32})[\'"]\)', webpage)
+                or re.search(r'data-ooyala-video-id\s*=\s*[\'"](?P<ec>.{32})[\'"]', webpage))
          if mobj is not None:
              embed_token = self._search_regex(
                  r'embedToken[\'"]?\s*:\s*[\'"]([^\'"]+)',
          if mobj is not None:
              embed_token = self._search_regex(
                  r'embedToken[\'"]?\s*:\s*[\'"]([^\'"]+)',
@@ -2622,9 +2652,9 @@ class GenericIE(InfoExtractor):
              return self.url_result(tvc_url, 'TVC')
  
          # Look for embedded SportBox player
              return self.url_result(tvc_url, 'TVC')
  
          # Look for embedded SportBox player
-        sportbox_urls = SportBoxEmbedIE._extract_urls(webpage)
+        sportbox_urls = SportBoxIE._extract_urls(webpage)
          if sportbox_urls:
          if sportbox_urls:
-            return self.playlist_from_matches(sportbox_urls, video_id, video_title, ie='SportBoxEmbed')
+            return self.playlist_from_matches(sportbox_urls, video_id, video_title, ie=SportBoxIE.ie_key())
  
          # Look for embedded XHamster player
          xhamster_urls = XHamsterEmbedIE._extract_urls(webpage)
  
          # Look for embedded XHamster player
          xhamster_urls = XHamsterEmbedIE._extract_urls(webpage)
@@ -2990,6 +3020,12 @@ class GenericIE(InfoExtractor):
              return self.playlist_from_matches(
                  openload_urls, video_id, video_title, ie=OpenloadIE.ie_key())
  
              return self.playlist_from_matches(
                  openload_urls, video_id, video_title, ie=OpenloadIE.ie_key())
  
+        # Look for Verystream embeds
+        verystream_urls = VerystreamIE._extract_urls(webpage)
+        if verystream_urls:
+            return self.playlist_from_matches(
+                verystream_urls, video_id, video_title, ie=VerystreamIE.ie_key())
+
          # Look for VideoPress embeds
          videopress_urls = VideoPressIE._extract_urls(webpage)
          if videopress_urls:
          # Look for VideoPress embeds
          videopress_urls = VideoPressIE._extract_urls(webpage)
          if videopress_urls:
@@ -3009,7 +3045,7 @@ class GenericIE(InfoExtractor):
                  wapo_urls, video_id, video_title, ie=WashingtonPostIE.ie_key())
  
          # Look for Mediaset embeds
                  wapo_urls, video_id, video_title, ie=WashingtonPostIE.ie_key())
  
          # Look for Mediaset embeds
-        mediaset_urls = MediasetIE._extract_urls(webpage)
+        mediaset_urls = MediasetIE._extract_urls(self, webpage)
          if mediaset_urls:
              return self.playlist_from_matches(
                  mediaset_urls, video_id, video_title, ie=MediasetIE.ie_key())
          if mediaset_urls:
              return self.playlist_from_matches(
                  mediaset_urls, video_id, video_title, ie=MediasetIE.ie_key())
@@ -3083,6 +3119,10 @@ class GenericIE(InfoExtractor):
              return self.playlist_from_matches(
                  peertube_urls, video_id, video_title, ie=PeerTubeIE.ie_key())
  
              return self.playlist_from_matches(
                  peertube_urls, video_id, video_title, ie=PeerTubeIE.ie_key())
  
+        teachable_url = TeachableIE._extract_url(webpage, url)
+        if teachable_url:
+            return self.url_result(teachable_url)
+
          indavideo_urls = IndavideoEmbedIE._extract_urls(webpage)
          if indavideo_urls:
              return self.playlist_from_matches(
          indavideo_urls = IndavideoEmbedIE._extract_urls(webpage)
          if indavideo_urls:
              return self.playlist_from_matches(
@@ -3098,7 +3138,7 @@ class GenericIE(InfoExtractor):
              return self.playlist_from_matches(
                  foxnews_urls, video_id, video_title, ie=FoxNewsIE.ie_key())
  
              return self.playlist_from_matches(
                  foxnews_urls, video_id, video_title, ie=FoxNewsIE.ie_key())
  
-        sharevideos_urls = [mobj.group('url') for mobj in re.finditer(
+        sharevideos_urls = [sharevideos_mobj.group('url') for sharevideos_mobj in re.finditer(
              r'<iframe[^>]+?\bsrc\s*=\s*(["\'])(?P<url>(?:https?:)?//embed\.share-videos\.se/auto/embed/\d+\?.*?\buid=\d+.*?)\1',
              webpage)]
          if sharevideos_urls:
              r'<iframe[^>]+?\bsrc\s*=\s*(["\'])(?P<url>(?:https?:)?//embed\.share-videos\.se/auto/embed/\d+\?.*?\buid=\d+.*?)\1',
              webpage)]
          if sharevideos_urls:
@@ -3115,6 +3155,11 @@ class GenericIE(InfoExtractor):
              return self.playlist_from_matches(
                  expressen_urls, video_id, video_title, ie=ExpressenIE.ie_key())
  
              return self.playlist_from_matches(
                  expressen_urls, video_id, video_title, ie=ExpressenIE.ie_key())
  
+        zype_urls = ZypeIE._extract_urls(webpage)
+        if zype_urls:
+            return self.playlist_from_matches(
+                zype_urls, video_id, video_title, ie=ZypeIE.ie_key())
+
          # Look for HTML5 media
          entries = self._parse_html5_media_entries(url, webpage, video_id, m3u8_id='hls')
          if entries:
          # Look for HTML5 media
          entries = self._parse_html5_media_entries(url, webpage, video_id, m3u8_id='hls')
          if entries:
@@ -3136,9 +3181,13 @@ class GenericIE(InfoExtractor):
          jwplayer_data = self._find_jwplayer_data(
              webpage, video_id, transform_source=js_to_json)
          if jwplayer_data:
          jwplayer_data = self._find_jwplayer_data(
              webpage, video_id, transform_source=js_to_json)
          if jwplayer_data:
-            info = self._parse_jwplayer_data(
-                jwplayer_data, video_id, require_title=False, base_url=url)
-            return merge_dicts(info, info_dict)
+            try:
+                info = self._parse_jwplayer_data(
+                    jwplayer_data, video_id, require_title=False, base_url=url)
+                return merge_dicts(info, info_dict)
+            except ExtractorError:
+                # See https://github.com/ytdl-org/youtube-dl/pull/16735
+                pass
  
          # Video.js embed
          mobj = re.search(
  
          # Video.js embed
          mobj = re.search(
@@ -3152,8 +3201,8 @@ class GenericIE(InfoExtractor):
                  sources = [sources]
              formats = []
              for source in sources:
                  sources = [sources]
              formats = []
              for source in sources:
-                src = url_or_none(source.get('src'))
-                if not src:
+                src = source.get('src')
+                if not src or not isinstance(src, compat_str):
                      continue
                  src = compat_urlparse.urljoin(url, src)
                  src_type = source.get('type')
                      continue
                  src = compat_urlparse.urljoin(url, src)
                  src_type = source.get('type')
@@ -3172,8 +3221,8 @@ class GenericIE(InfoExtractor):
                  else:
                      formats.append({
                          'url': src,
                  else:
                      formats.append({
                          'url': src,
-                        'ext': (mimetype2ext(src_type) or
-                                ext if ext in KNOWN_EXTENSIONS else 'mp4'),
+                        'ext': (mimetype2ext(src_type)
+                                or ext if ext in KNOWN_EXTENSIONS else 'mp4'),
                      })
              if formats:
                  self._sort_formats(formats)
                      })
              if formats:
                  self._sort_formats(formats)