Merge pull request #4598 from 0xced/encrypted-age-gate

[youtube-dl] / youtube_dl / extractor / youtube.py
diff --git a/youtube_dl/extractor/youtube.py b/youtube_dl/extractor/youtube.py

index 7b6179a2abd1261b787f1b19486ab04af31feddf..175e43272e8875e9efc6f91ae33f88d9f118e0b3 100644 (file)
--- a/youtube_dl/extractor/youtube.py
+++ b/youtube_dl/extractor/youtube.py
@@ -478,7 +478,7 @@ class YoutubeIE(YoutubeBaseInfoExtractor, SubtitlesInfoExtractor):
  
      def _extract_signature_function(self, video_id, player_url, example_sig):
          id_m = re.match(
-            r'.*-(?P<id>[a-zA-Z0-9_-]+)(?:/watch_as3|/html5player)?\.(?P<ext>[a-z]+)$',
+            r'.*?-(?P<id>[a-zA-Z0-9_-]+)(?:/watch_as3|/html5player)?\.(?P<ext>[a-z]+)$',
              player_url)
          if not id_m:
              raise ExtractorError('Cannot identify player %r' % player_url)
@@ -527,8 +527,8 @@ class YoutubeIE(YoutubeBaseInfoExtractor, SubtitlesInfoExtractor):
                  return 's[%s%s%s]' % (starts, ends, steps)
  
              step = None
-            start = '(Never used)'  # Quelch pyflakes warnings - start will be
-                                    # set as soon as step is set
+            # Quelch pyflakes warnings - start will be set when step is set
+            start = '(Never used)'
              for i, prev in zip(idxs[1:], idxs[:-1]):
                  if step is not None:
                      if i - prev == step:
@@ -766,11 +766,13 @@ class YoutubeIE(YoutubeBaseInfoExtractor, SubtitlesInfoExtractor):
              age_gate = True
              # We simulate the access to the video from www.youtube.com/v/{video_id}
              # this can be viewed without login into Youtube
+            url = proto + '://www.youtube.com/embed/%s' % video_id
+            embed_webpage = self._download_webpage(url, video_id, 'Downloading embed webpage')
              data = compat_urllib_parse.urlencode({
                  'video_id': video_id,
                  'eurl': 'https://youtube.googleapis.com/v/' + video_id,
                  'sts': self._search_regex(
-                    r'"sts"\s*:\s*(\d+)', video_webpage, 'sts', default=''),
+                    r'"sts"\s*:\s*(\d+)', embed_webpage, 'sts', default=''),
              })
              video_info_url = proto + '://www.youtube.com/get_video_info?' + data
              video_info_webpage = self._download_webpage(
@@ -968,11 +970,10 @@ class YoutubeIE(YoutubeBaseInfoExtractor, SubtitlesInfoExtractor):
                  elif 's' in url_data:
                      encrypted_sig = url_data['s'][0]
  
-                    if not age_gate:
-                        jsplayer_url_json = self._search_regex(
-                            r'"assets":.+?"js":\s*("[^"]+")',
-                            video_webpage, 'JS player URL')
-                        player_url = json.loads(jsplayer_url_json)
+                    jsplayer_url_json = self._search_regex(
+                        r'"assets":.+?"js":\s*("[^"]+")',
+                        embed_webpage if age_gate else video_webpage, 'JS player URL')
+                    player_url = json.loads(jsplayer_url_json)
                      if player_url is None:
                          player_url_json = self._search_regex(
                              r'ytplayer\.config.*?"url"\s*:\s*("[^"]+")',
@@ -1072,7 +1073,6 @@ class YoutubePlaylistIE(YoutubeBaseInfoExtractor):
                          ((?:PL|LL|EC|UU|FL|RD)[0-9A-Za-z-_]{10,})
                       )"""
      _TEMPLATE_URL = 'https://www.youtube.com/playlist?list=%s'
-    _MORE_PAGES_INDICATOR = r'data-link-type="next"'
      _VIDEO_RE = r'href="\s*/watch\?v=(?P<id>[0-9A-Za-z_-]{11})&amp;[^"]*?index=(?P<index>\d+)'
      IE_NAME = 'youtube:playlist'
      _TESTS = [{
@@ -1129,6 +1129,13 @@ class YoutubePlaylistIE(YoutubeBaseInfoExtractor):
          'info_dict': {
              'title': 'JODA7',
          }
+    }, {
+        'note': 'Buggy playlist: the webpage has a "Load more" button but it doesn\'t have more videos',
+        'url': 'https://www.youtube.com/playlist?list=UUXw-G3eDE9trcvY2sBMM_aA',
+        'info_dict': {
+                'title': 'Uploads from Interstellar Movie',
+        },
+        'playlist_mincout': 21,
      }]
  
      def _real_initialize(self):
@@ -1213,6 +1220,10 @@ class YoutubePlaylistIE(YoutubeBaseInfoExtractor):
                  'Downloading page #%s' % page_num,
                  transform_source=uppercase_escape)
              content_html = more['content_html']
+            if not content_html.strip():
+                # Some webpages show a "Load more" button but they don't
+                # have more videos
+                break
              more_widget_html = more['load_more_widget_html']
  
          playlist_title = self._html_search_regex(
@@ -1269,8 +1280,6 @@ class YoutubeTopListIE(YoutubePlaylistIE):
  class YoutubeChannelIE(InfoExtractor):
      IE_DESC = 'YouTube.com channels'
      _VALID_URL = r'https?://(?:youtu\.be|(?:\w+\.)?youtube(?:-nocookie)?\.com)/channel/(?P<id>[0-9A-Za-z_-]+)'
-    _MORE_PAGES_INDICATOR = 'yt-uix-load-more'
-    _MORE_PAGES_URL = 'https://www.youtube.com/c4_browse_ajax?action_load_more_videos=1&flow=list&paging=%s&view=0&sort=da&channel_id=%s'
      IE_NAME = 'youtube:channel'
      _TESTS = [{
          'note': 'paginated channel',
@@ -1307,20 +1316,27 @@ class YoutubeChannelIE(InfoExtractor):
              return self.playlist_result(entries, channel_id)
  
          def _entries():
+            more_widget_html = content_html = channel_page
              for pagenum in itertools.count(1):
-                url = self._MORE_PAGES_URL % (pagenum, channel_id)
-                page = self._download_json(
-                    url, channel_id, note='Downloading page #%s' % pagenum,
-                    transform_source=uppercase_escape)
  
-                ids_in_page = self.extract_videos_from_page(page['content_html'])
+                ids_in_page = self.extract_videos_from_page(content_html)
                  for video_id in ids_in_page:
                      yield self.url_result(
                          video_id, 'Youtube', video_id=video_id)
  
-                if self._MORE_PAGES_INDICATOR not in page['load_more_widget_html']:
+                mobj = re.search(
+                    r'data-uix-load-more-href="/?(?P<more>[^"]+)"',
+                    more_widget_html)
+                if not mobj:
                      break
  
+                more = self._download_json(
+                    'https://youtube.com/%s' % mobj.group('more'), channel_id,
+                    'Downloading page #%s' % (pagenum + 1),
+                    transform_source=uppercase_escape)
+                content_html = more['content_html']
+                more_widget_html = more['load_more_widget_html']
+
          return self.playlist_result(_entries(), channel_id)
  
  
@@ -1551,9 +1567,11 @@ class YoutubeFeedsInfoExtractor(YoutubeBaseInfoExtractor):
          feed_entries = []
          paging = 0
          for i in itertools.count(1):
-            info = self._download_json(self._FEED_TEMPLATE % paging,
-                                       '%s feed' % self._FEED_NAME,
-                                       'Downloading page %s' % i)
+            info = self._download_json(
+                self._FEED_TEMPLATE % paging,
+                '%s feed' % self._FEED_NAME,
+                'Downloading page %s' % i,
+                transform_source=uppercase_escape)
              feed_html = info.get('feed_html') or info.get('content_html')
              load_more_widget_html = info.get('load_more_widget_html') or feed_html
              m_ids = re.finditer(r'"/watch\?v=(.*?)["&]', feed_html)