[youtube:ytsearch] Temporary workaround (#5483)

[youtube-dl] / youtube_dl / extractor / youtube.py
diff --git a/youtube_dl/extractor/youtube.py b/youtube_dl/extractor/youtube.py

index 2774ec30b26d408817a8f4328747a99e791ec8f5..4ec39c589c0c89c6dda6ba067fdc1c49616f062a 100644 (file)
--- a/youtube_dl/extractor/youtube.py
+++ b/youtube_dl/extractor/youtube.py
@@ -1370,15 +1370,22 @@ class YoutubeChannelIE(InfoExtractor):
  
      def extract_videos_from_page(self, page):
          ids_in_page = []
-        for mobj in re.finditer(r'href="/watch\?v=([0-9A-Za-z_-]+)&?', page):
-            if mobj.group(1) not in ids_in_page:
-                ids_in_page.append(mobj.group(1))
-        return ids_in_page
+        titles_in_page = []
+        for mobj in re.finditer(r'(?:title="(?P<title>[^"]+)"[^>]+)?href="/watch\?v=(?P<id>[0-9A-Za-z_-]+)&?', page):
+            video_id = mobj.group('id')
+            video_title = unescapeHTML(mobj.group('title'))
+            try:
+                idx = ids_in_page.index(video_id)
+                if video_title and not titles_in_page[idx]:
+                    titles_in_page[idx] = video_title
+            except ValueError:
+                ids_in_page.append(video_id)
+                titles_in_page.append(video_title)
+        return zip(ids_in_page, titles_in_page)
  
      def _real_extract(self, url):
          channel_id = self._match_id(url)
  
-        video_ids = []
          url = 'https://www.youtube.com/channel/%s/videos' % channel_id
          channel_page = self._download_webpage(url, channel_id)
          autogenerated = re.search(r'''(?x)
@@ -1390,20 +1397,21 @@ class YoutubeChannelIE(InfoExtractor):
          if autogenerated:
              # The videos are contained in a single page
              # the ajax pages can't be used, they are empty
-            video_ids = self.extract_videos_from_page(channel_page)
              entries = [
-                self.url_result(video_id, 'Youtube', video_id=video_id)
-                for video_id in video_ids]
+                self.url_result(
+                    video_id, 'Youtube', video_id=video_id,
+                    video_title=video_title)
+                for video_id, video_title in self.extract_videos_from_page(channel_page)]
              return self.playlist_result(entries, channel_id)
  
          def _entries():
              more_widget_html = content_html = channel_page
              for pagenum in itertools.count(1):
  
-                ids_in_page = self.extract_videos_from_page(content_html)
-                for video_id in ids_in_page:
+                for video_id, video_title in self.extract_videos_from_page(content_html):
                      yield self.url_result(
-                        video_id, 'Youtube', video_id=video_id)
+                        video_id, 'Youtube', video_id=video_id,
+                        video_title=video_title)
  
                  mobj = re.search(
                      r'data-uix-load-more-href="/?(?P<more>[^"]+)"',
@@ -1509,7 +1517,7 @@ class YoutubeSearchIE(SearchInfoExtractor):
          while (PAGE_SIZE * pagenum) < limit:
              result_url = self._API_URL % (
                  compat_urllib_parse.quote_plus(query.encode('utf-8')),
-                (PAGE_SIZE * pagenum) + 1)
+                max((PAGE_SIZE * pagenum) + 1), 2)
              data_json = self._download_webpage(
                  result_url, video_id='query "%s"' % query,
                  note='Downloading page %s' % (pagenum + 1),