[youtube] Add itag 212
[youtube-dl] / youtube_dl / extractor / youtube.py
1 # coding: utf-8
2
3 from __future__ import unicode_literals
4
5
6 import itertools
7 import json
8 import os.path
9 import random
10 import re
11 import time
12 import traceback
13
14 from .common import InfoExtractor, SearchInfoExtractor
15 from ..jsinterp import JSInterpreter
16 from ..swfinterp import SWFInterpreter
17 from ..compat import (
18     compat_chr,
19     compat_parse_qs,
20     compat_urllib_parse_unquote,
21     compat_urllib_parse_unquote_plus,
22     compat_urllib_parse_urlencode,
23     compat_urllib_parse_urlparse,
24     compat_urlparse,
25     compat_str,
26 )
27 from ..utils import (
28     clean_html,
29     error_to_compat_str,
30     ExtractorError,
31     float_or_none,
32     get_element_by_attribute,
33     get_element_by_id,
34     int_or_none,
35     mimetype2ext,
36     orderedSet,
37     parse_duration,
38     remove_quotes,
39     remove_start,
40     sanitized_Request,
41     smuggle_url,
42     str_to_int,
43     unescapeHTML,
44     unified_strdate,
45     unsmuggle_url,
46     uppercase_escape,
47     urlencode_postdata,
48     ISO3166Utils,
49 )
50
51
52 class YoutubeBaseInfoExtractor(InfoExtractor):
53     """Provide base functions for Youtube extractors"""
54     _LOGIN_URL = 'https://accounts.google.com/ServiceLogin'
55     _TWOFACTOR_URL = 'https://accounts.google.com/signin/challenge'
56     _PASSWORD_CHALLENGE_URL = 'https://accounts.google.com/signin/challenge/sl/password'
57     _NETRC_MACHINE = 'youtube'
58     # If True it will raise an error if no login info is provided
59     _LOGIN_REQUIRED = False
60
61     def _set_language(self):
62         self._set_cookie(
63             '.youtube.com', 'PREF', 'f1=50000000&hl=en',
64             # YouTube sets the expire time to about two months
65             expire_time=time.time() + 2 * 30 * 24 * 3600)
66
67     def _ids_to_results(self, ids):
68         return [
69             self.url_result(vid_id, 'Youtube', video_id=vid_id)
70             for vid_id in ids]
71
72     def _login(self):
73         """
74         Attempt to log in to YouTube.
75         True is returned if successful or skipped.
76         False is returned if login failed.
77
78         If _LOGIN_REQUIRED is set and no authentication was provided, an error is raised.
79         """
80         (username, password) = self._get_login_info()
81         # No authentication to be performed
82         if username is None:
83             if self._LOGIN_REQUIRED:
84                 raise ExtractorError('No login info available, needed for using %s.' % self.IE_NAME, expected=True)
85             return True
86
87         login_page = self._download_webpage(
88             self._LOGIN_URL, None,
89             note='Downloading login page',
90             errnote='unable to fetch login page', fatal=False)
91         if login_page is False:
92             return
93
94         login_form = self._hidden_inputs(login_page)
95
96         login_form.update({
97             'checkConnection': 'youtube',
98             'Email': username,
99             'Passwd': password,
100         })
101
102         login_results = self._download_webpage(
103             self._PASSWORD_CHALLENGE_URL, None,
104             note='Logging in', errnote='unable to log in', fatal=False,
105             data=urlencode_postdata(login_form))
106         if login_results is False:
107             return False
108
109         error_msg = self._html_search_regex(
110             r'<[^>]+id="errormsg_0_Passwd"[^>]*>([^<]+)<',
111             login_results, 'error message', default=None)
112         if error_msg:
113             raise ExtractorError('Unable to login: %s' % error_msg, expected=True)
114
115         if re.search(r'id="errormsg_0_Passwd"', login_results) is not None:
116             raise ExtractorError('Please use your account password and a two-factor code instead of an application-specific password.', expected=True)
117
118         # Two-Factor
119         # TODO add SMS and phone call support - these require making a request and then prompting the user
120
121         if re.search(r'(?i)<form[^>]+id="challenge"', login_results) is not None:
122             tfa_code = self._get_tfa_info('2-step verification code')
123
124             if not tfa_code:
125                 self._downloader.report_warning(
126                     'Two-factor authentication required. Provide it either interactively or with --twofactor <code>'
127                     '(Note that only TOTP (Google Authenticator App) codes work at this time.)')
128                 return False
129
130             tfa_code = remove_start(tfa_code, 'G-')
131
132             tfa_form_strs = self._form_hidden_inputs('challenge', login_results)
133
134             tfa_form_strs.update({
135                 'Pin': tfa_code,
136                 'TrustDevice': 'on',
137             })
138
139             tfa_data = urlencode_postdata(tfa_form_strs)
140
141             tfa_req = sanitized_Request(self._TWOFACTOR_URL, tfa_data)
142             tfa_results = self._download_webpage(
143                 tfa_req, None,
144                 note='Submitting TFA code', errnote='unable to submit tfa', fatal=False)
145
146             if tfa_results is False:
147                 return False
148
149             if re.search(r'(?i)<form[^>]+id="challenge"', tfa_results) is not None:
150                 self._downloader.report_warning('Two-factor code expired or invalid. Please try again, or use a one-use backup code instead.')
151                 return False
152             if re.search(r'(?i)<form[^>]+id="gaia_loginform"', tfa_results) is not None:
153                 self._downloader.report_warning('unable to log in - did the page structure change?')
154                 return False
155             if re.search(r'smsauth-interstitial-reviewsettings', tfa_results) is not None:
156                 self._downloader.report_warning('Your Google account has a security notice. Please log in on your web browser, resolve the notice, and try again.')
157                 return False
158
159         if re.search(r'(?i)<form[^>]+id="gaia_loginform"', login_results) is not None:
160             self._downloader.report_warning('unable to log in: bad username or password')
161             return False
162         return True
163
164     def _real_initialize(self):
165         if self._downloader is None:
166             return
167         self._set_language()
168         if not self._login():
169             return
170
171
172 class YoutubeEntryListBaseInfoExtractor(YoutubeBaseInfoExtractor):
173     # Extract entries from page with "Load more" button
174     def _entries(self, page, playlist_id):
175         more_widget_html = content_html = page
176         for page_num in itertools.count(1):
177             for entry in self._process_page(content_html):
178                 yield entry
179
180             mobj = re.search(r'data-uix-load-more-href="/?(?P<more>[^"]+)"', more_widget_html)
181             if not mobj:
182                 break
183
184             more = self._download_json(
185                 'https://youtube.com/%s' % mobj.group('more'), playlist_id,
186                 'Downloading page #%s' % page_num,
187                 transform_source=uppercase_escape)
188             content_html = more['content_html']
189             if not content_html.strip():
190                 # Some webpages show a "Load more" button but they don't
191                 # have more videos
192                 break
193             more_widget_html = more['load_more_widget_html']
194
195
196 class YoutubePlaylistBaseInfoExtractor(YoutubeEntryListBaseInfoExtractor):
197     def _process_page(self, content):
198         for video_id, video_title in self.extract_videos_from_page(content):
199             yield self.url_result(video_id, 'Youtube', video_id, video_title)
200
201     def extract_videos_from_page(self, page):
202         ids_in_page = []
203         titles_in_page = []
204         for mobj in re.finditer(self._VIDEO_RE, page):
205             # The link with index 0 is not the first video of the playlist (not sure if still actual)
206             if 'index' in mobj.groupdict() and mobj.group('id') == '0':
207                 continue
208             video_id = mobj.group('id')
209             video_title = unescapeHTML(mobj.group('title'))
210             if video_title:
211                 video_title = video_title.strip()
212             try:
213                 idx = ids_in_page.index(video_id)
214                 if video_title and not titles_in_page[idx]:
215                     titles_in_page[idx] = video_title
216             except ValueError:
217                 ids_in_page.append(video_id)
218                 titles_in_page.append(video_title)
219         return zip(ids_in_page, titles_in_page)
220
221
222 class YoutubePlaylistsBaseInfoExtractor(YoutubeEntryListBaseInfoExtractor):
223     def _process_page(self, content):
224         for playlist_id in orderedSet(re.findall(
225                 r'<h3[^>]+class="[^"]*yt-lockup-title[^"]*"[^>]*><a[^>]+href="/?playlist\?list=([0-9A-Za-z-_]{10,})"',
226                 content)):
227             yield self.url_result(
228                 'https://www.youtube.com/playlist?list=%s' % playlist_id, 'YoutubePlaylist')
229
230     def _real_extract(self, url):
231         playlist_id = self._match_id(url)
232         webpage = self._download_webpage(url, playlist_id)
233         title = self._og_search_title(webpage, fatal=False)
234         return self.playlist_result(self._entries(webpage, playlist_id), playlist_id, title)
235
236
237 class YoutubeIE(YoutubeBaseInfoExtractor):
238     IE_DESC = 'YouTube.com'
239     _VALID_URL = r"""(?x)^
240                      (
241                          (?:https?://|//)                                    # http(s):// or protocol-independent URL
242                          (?:(?:(?:(?:\w+\.)?[yY][oO][uU][tT][uU][bB][eE](?:-nocookie)?\.com/|
243                             (?:www\.)?deturl\.com/www\.youtube\.com/|
244                             (?:www\.)?pwnyoutube\.com/|
245                             (?:www\.)?yourepeat\.com/|
246                             tube\.majestyc\.net/|
247                             youtube\.googleapis\.com/)                        # the various hostnames, with wildcard subdomains
248                          (?:.*?\#/)?                                          # handle anchor (#/) redirect urls
249                          (?:                                                  # the various things that can precede the ID:
250                              (?:(?:v|embed|e)/(?!videoseries))                # v/ or embed/ or e/
251                              |(?:                                             # or the v= param in all its forms
252                                  (?:(?:watch|movie)(?:_popup)?(?:\.php)?/?)?  # preceding watch(_popup|.php) or nothing (like /?v=xxxx)
253                                  (?:\?|\#!?)                                  # the params delimiter ? or # or #!
254                                  (?:.*?[&;])??                                # any other preceding param (like /?s=tuff&v=xxxx or ?s=tuff&amp;v=V36LpHqtcDY)
255                                  v=
256                              )
257                          ))
258                          |(?:
259                             youtu\.be|                                        # just youtu.be/xxxx
260                             vid\.plus|                                        # or vid.plus/xxxx
261                             zwearz\.com/watch|                                # or zwearz.com/watch/xxxx
262                          )/
263                          |(?:www\.)?cleanvideosearch\.com/media/action/yt/watch\?videoId=
264                          )
265                      )?                                                       # all until now is optional -> you can pass the naked ID
266                      ([0-9A-Za-z_-]{11})                                      # here is it! the YouTube video ID
267                      (?!.*?\blist=)                                            # combined list/video URLs are handled by the playlist IE
268                      (?(1).+)?                                                # if we found the ID, everything can follow
269                      $"""
270     _NEXT_URL_RE = r'[\?&]next_url=([^&]+)'
271     _formats = {
272         '5': {'ext': 'flv', 'width': 400, 'height': 240, 'acodec': 'mp3', 'abr': 64, 'vcodec': 'h263'},
273         '6': {'ext': 'flv', 'width': 450, 'height': 270, 'acodec': 'mp3', 'abr': 64, 'vcodec': 'h263'},
274         '13': {'ext': '3gp', 'acodec': 'aac', 'vcodec': 'mp4v'},
275         '17': {'ext': '3gp', 'width': 176, 'height': 144, 'acodec': 'aac', 'abr': 24, 'vcodec': 'mp4v'},
276         '18': {'ext': 'mp4', 'width': 640, 'height': 360, 'acodec': 'aac', 'abr': 96, 'vcodec': 'h264'},
277         '22': {'ext': 'mp4', 'width': 1280, 'height': 720, 'acodec': 'aac', 'abr': 192, 'vcodec': 'h264'},
278         '34': {'ext': 'flv', 'width': 640, 'height': 360, 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264'},
279         '35': {'ext': 'flv', 'width': 854, 'height': 480, 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264'},
280         # itag 36 videos are either 320x180 (BaW_jenozKc) or 320x240 (__2ABJjxzNo), abr varies as well
281         '36': {'ext': '3gp', 'width': 320, 'acodec': 'aac', 'vcodec': 'mp4v'},
282         '37': {'ext': 'mp4', 'width': 1920, 'height': 1080, 'acodec': 'aac', 'abr': 192, 'vcodec': 'h264'},
283         '38': {'ext': 'mp4', 'width': 4096, 'height': 3072, 'acodec': 'aac', 'abr': 192, 'vcodec': 'h264'},
284         '43': {'ext': 'webm', 'width': 640, 'height': 360, 'acodec': 'vorbis', 'abr': 128, 'vcodec': 'vp8'},
285         '44': {'ext': 'webm', 'width': 854, 'height': 480, 'acodec': 'vorbis', 'abr': 128, 'vcodec': 'vp8'},
286         '45': {'ext': 'webm', 'width': 1280, 'height': 720, 'acodec': 'vorbis', 'abr': 192, 'vcodec': 'vp8'},
287         '46': {'ext': 'webm', 'width': 1920, 'height': 1080, 'acodec': 'vorbis', 'abr': 192, 'vcodec': 'vp8'},
288         '59': {'ext': 'mp4', 'width': 854, 'height': 480, 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264'},
289         '78': {'ext': 'mp4', 'width': 854, 'height': 480, 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264'},
290
291
292         # 3D videos
293         '82': {'ext': 'mp4', 'height': 360, 'format_note': '3D', 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264', 'preference': -20},
294         '83': {'ext': 'mp4', 'height': 480, 'format_note': '3D', 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264', 'preference': -20},
295         '84': {'ext': 'mp4', 'height': 720, 'format_note': '3D', 'acodec': 'aac', 'abr': 192, 'vcodec': 'h264', 'preference': -20},
296         '85': {'ext': 'mp4', 'height': 1080, 'format_note': '3D', 'acodec': 'aac', 'abr': 192, 'vcodec': 'h264', 'preference': -20},
297         '100': {'ext': 'webm', 'height': 360, 'format_note': '3D', 'acodec': 'vorbis', 'abr': 128, 'vcodec': 'vp8', 'preference': -20},
298         '101': {'ext': 'webm', 'height': 480, 'format_note': '3D', 'acodec': 'vorbis', 'abr': 192, 'vcodec': 'vp8', 'preference': -20},
299         '102': {'ext': 'webm', 'height': 720, 'format_note': '3D', 'acodec': 'vorbis', 'abr': 192, 'vcodec': 'vp8', 'preference': -20},
300
301         # Apple HTTP Live Streaming
302         '91': {'ext': 'mp4', 'height': 144, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 48, 'vcodec': 'h264', 'preference': -10},
303         '92': {'ext': 'mp4', 'height': 240, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 48, 'vcodec': 'h264', 'preference': -10},
304         '93': {'ext': 'mp4', 'height': 360, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264', 'preference': -10},
305         '94': {'ext': 'mp4', 'height': 480, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 128, 'vcodec': 'h264', 'preference': -10},
306         '95': {'ext': 'mp4', 'height': 720, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 256, 'vcodec': 'h264', 'preference': -10},
307         '96': {'ext': 'mp4', 'height': 1080, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 256, 'vcodec': 'h264', 'preference': -10},
308         '132': {'ext': 'mp4', 'height': 240, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 48, 'vcodec': 'h264', 'preference': -10},
309         '151': {'ext': 'mp4', 'height': 72, 'format_note': 'HLS', 'acodec': 'aac', 'abr': 24, 'vcodec': 'h264', 'preference': -10},
310
311         # DASH mp4 video
312         '133': {'ext': 'mp4', 'height': 240, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
313         '134': {'ext': 'mp4', 'height': 360, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
314         '135': {'ext': 'mp4', 'height': 480, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
315         '136': {'ext': 'mp4', 'height': 720, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
316         '137': {'ext': 'mp4', 'height': 1080, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
317         '138': {'ext': 'mp4', 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},  # Height can vary (https://github.com/rg3/youtube-dl/issues/4559)
318         '160': {'ext': 'mp4', 'height': 144, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
319         '212': {'ext': 'mp4', 'height': 480, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
320         '264': {'ext': 'mp4', 'height': 1440, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
321         '298': {'ext': 'mp4', 'height': 720, 'format_note': 'DASH video', 'vcodec': 'h264', 'fps': 60, 'preference': -40},
322         '299': {'ext': 'mp4', 'height': 1080, 'format_note': 'DASH video', 'vcodec': 'h264', 'fps': 60, 'preference': -40},
323         '266': {'ext': 'mp4', 'height': 2160, 'format_note': 'DASH video', 'vcodec': 'h264', 'preference': -40},
324
325         # Dash mp4 audio
326         '139': {'ext': 'm4a', 'format_note': 'DASH audio', 'acodec': 'aac', 'abr': 48, 'preference': -50, 'container': 'm4a_dash'},
327         '140': {'ext': 'm4a', 'format_note': 'DASH audio', 'acodec': 'aac', 'abr': 128, 'preference': -50, 'container': 'm4a_dash'},
328         '141': {'ext': 'm4a', 'format_note': 'DASH audio', 'acodec': 'aac', 'abr': 256, 'preference': -50, 'container': 'm4a_dash'},
329         '256': {'ext': 'm4a', 'format_note': 'DASH audio', 'acodec': 'aac', 'preference': -50, 'container': 'm4a_dash'},
330         '258': {'ext': 'm4a', 'format_note': 'DASH audio', 'acodec': 'aac', 'preference': -50, 'container': 'm4a_dash'},
331
332         # Dash webm
333         '167': {'ext': 'webm', 'height': 360, 'width': 640, 'format_note': 'DASH video', 'container': 'webm', 'vcodec': 'vp8', 'preference': -40},
334         '168': {'ext': 'webm', 'height': 480, 'width': 854, 'format_note': 'DASH video', 'container': 'webm', 'vcodec': 'vp8', 'preference': -40},
335         '169': {'ext': 'webm', 'height': 720, 'width': 1280, 'format_note': 'DASH video', 'container': 'webm', 'vcodec': 'vp8', 'preference': -40},
336         '170': {'ext': 'webm', 'height': 1080, 'width': 1920, 'format_note': 'DASH video', 'container': 'webm', 'vcodec': 'vp8', 'preference': -40},
337         '218': {'ext': 'webm', 'height': 480, 'width': 854, 'format_note': 'DASH video', 'container': 'webm', 'vcodec': 'vp8', 'preference': -40},
338         '219': {'ext': 'webm', 'height': 480, 'width': 854, 'format_note': 'DASH video', 'container': 'webm', 'vcodec': 'vp8', 'preference': -40},
339         '278': {'ext': 'webm', 'height': 144, 'format_note': 'DASH video', 'container': 'webm', 'vcodec': 'vp9', 'preference': -40},
340         '242': {'ext': 'webm', 'height': 240, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
341         '243': {'ext': 'webm', 'height': 360, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
342         '244': {'ext': 'webm', 'height': 480, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
343         '245': {'ext': 'webm', 'height': 480, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
344         '246': {'ext': 'webm', 'height': 480, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
345         '247': {'ext': 'webm', 'height': 720, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
346         '248': {'ext': 'webm', 'height': 1080, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
347         '271': {'ext': 'webm', 'height': 1440, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
348         # itag 272 videos are either 3840x2160 (e.g. RtoitU2A-3E) or 7680x4320 (sLprVF6d7Ug)
349         '272': {'ext': 'webm', 'height': 2160, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
350         '302': {'ext': 'webm', 'height': 720, 'format_note': 'DASH video', 'vcodec': 'vp9', 'fps': 60, 'preference': -40},
351         '303': {'ext': 'webm', 'height': 1080, 'format_note': 'DASH video', 'vcodec': 'vp9', 'fps': 60, 'preference': -40},
352         '308': {'ext': 'webm', 'height': 1440, 'format_note': 'DASH video', 'vcodec': 'vp9', 'fps': 60, 'preference': -40},
353         '313': {'ext': 'webm', 'height': 2160, 'format_note': 'DASH video', 'vcodec': 'vp9', 'preference': -40},
354         '315': {'ext': 'webm', 'height': 2160, 'format_note': 'DASH video', 'vcodec': 'vp9', 'fps': 60, 'preference': -40},
355
356         # Dash webm audio
357         '171': {'ext': 'webm', 'acodec': 'vorbis', 'format_note': 'DASH audio', 'abr': 128, 'preference': -50},
358         '172': {'ext': 'webm', 'acodec': 'vorbis', 'format_note': 'DASH audio', 'abr': 256, 'preference': -50},
359
360         # Dash webm audio with opus inside
361         '249': {'ext': 'webm', 'format_note': 'DASH audio', 'acodec': 'opus', 'abr': 50, 'preference': -50},
362         '250': {'ext': 'webm', 'format_note': 'DASH audio', 'acodec': 'opus', 'abr': 70, 'preference': -50},
363         '251': {'ext': 'webm', 'format_note': 'DASH audio', 'acodec': 'opus', 'abr': 160, 'preference': -50},
364
365         # RTMP (unnamed)
366         '_rtmp': {'protocol': 'rtmp'},
367     }
368     _SUBTITLE_FORMATS = ('ttml', 'vtt')
369
370     IE_NAME = 'youtube'
371     _TESTS = [
372         {
373             'url': 'https://www.youtube.com/watch?v=BaW_jenozKc&t=1s&end=9',
374             'info_dict': {
375                 'id': 'BaW_jenozKc',
376                 'ext': 'mp4',
377                 'title': 'youtube-dl test video "\'/\\ä↭𝕐',
378                 'uploader': 'Philipp Hagemeister',
379                 'uploader_id': 'phihag',
380                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/phihag',
381                 'upload_date': '20121002',
382                 'license': 'Standard YouTube License',
383                 'description': 'test chars:  "\'/\\ä↭𝕐\ntest URL: https://github.com/rg3/youtube-dl/issues/1892\n\nThis is a test video for youtube-dl.\n\nFor more information, contact phihag@phihag.de .',
384                 'categories': ['Science & Technology'],
385                 'tags': ['youtube-dl'],
386                 'like_count': int,
387                 'dislike_count': int,
388                 'start_time': 1,
389                 'end_time': 9,
390             }
391         },
392         {
393             'url': 'https://www.youtube.com/watch?v=UxxajLWwzqY',
394             'note': 'Test generic use_cipher_signature video (#897)',
395             'info_dict': {
396                 'id': 'UxxajLWwzqY',
397                 'ext': 'mp4',
398                 'upload_date': '20120506',
399                 'title': 'Icona Pop - I Love It (feat. Charli XCX) [OFFICIAL VIDEO]',
400                 'alt_title': 'I Love It (feat. Charli XCX)',
401                 'description': 'md5:f3ceb5ef83a08d95b9d146f973157cc8',
402                 'tags': ['Icona Pop i love it', 'sweden', 'pop music', 'big beat records', 'big beat', 'charli',
403                          'xcx', 'charli xcx', 'girls', 'hbo', 'i love it', "i don't care", 'icona', 'pop',
404                          'iconic ep', 'iconic', 'love', 'it'],
405                 'uploader': 'Icona Pop',
406                 'uploader_id': 'IconaPop',
407                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/IconaPop',
408                 'license': 'Standard YouTube License',
409                 'creator': 'Icona Pop',
410             }
411         },
412         {
413             'url': 'https://www.youtube.com/watch?v=07FYdnEawAQ',
414             'note': 'Test VEVO video with age protection (#956)',
415             'info_dict': {
416                 'id': '07FYdnEawAQ',
417                 'ext': 'mp4',
418                 'upload_date': '20130703',
419                 'title': 'Justin Timberlake - Tunnel Vision (Explicit)',
420                 'alt_title': 'Tunnel Vision',
421                 'description': 'md5:64249768eec3bc4276236606ea996373',
422                 'uploader': 'justintimberlakeVEVO',
423                 'uploader_id': 'justintimberlakeVEVO',
424                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/justintimberlakeVEVO',
425                 'license': 'Standard YouTube License',
426                 'creator': 'Justin Timberlake',
427                 'age_limit': 18,
428             }
429         },
430         {
431             'url': '//www.YouTube.com/watch?v=yZIXLfi8CZQ',
432             'note': 'Embed-only video (#1746)',
433             'info_dict': {
434                 'id': 'yZIXLfi8CZQ',
435                 'ext': 'mp4',
436                 'upload_date': '20120608',
437                 'title': 'Principal Sexually Assaults A Teacher - Episode 117 - 8th June 2012',
438                 'description': 'md5:09b78bd971f1e3e289601dfba15ca4f7',
439                 'uploader': 'SET India',
440                 'uploader_id': 'setindia',
441                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/setindia',
442                 'license': 'Standard YouTube License',
443                 'age_limit': 18,
444             }
445         },
446         {
447             'url': 'https://www.youtube.com/watch?v=BaW_jenozKc&v=UxxajLWwzqY',
448             'note': 'Use the first video ID in the URL',
449             'info_dict': {
450                 'id': 'BaW_jenozKc',
451                 'ext': 'mp4',
452                 'title': 'youtube-dl test video "\'/\\ä↭𝕐',
453                 'uploader': 'Philipp Hagemeister',
454                 'uploader_id': 'phihag',
455                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/phihag',
456                 'upload_date': '20121002',
457                 'license': 'Standard YouTube License',
458                 'description': 'test chars:  "\'/\\ä↭𝕐\ntest URL: https://github.com/rg3/youtube-dl/issues/1892\n\nThis is a test video for youtube-dl.\n\nFor more information, contact phihag@phihag.de .',
459                 'categories': ['Science & Technology'],
460                 'tags': ['youtube-dl'],
461                 'like_count': int,
462                 'dislike_count': int,
463             },
464             'params': {
465                 'skip_download': True,
466             },
467         },
468         {
469             'url': 'https://www.youtube.com/watch?v=a9LDPn-MO4I',
470             'note': '256k DASH audio (format 141) via DASH manifest',
471             'info_dict': {
472                 'id': 'a9LDPn-MO4I',
473                 'ext': 'm4a',
474                 'upload_date': '20121002',
475                 'uploader_id': '8KVIDEO',
476                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/8KVIDEO',
477                 'description': '',
478                 'uploader': '8KVIDEO',
479                 'license': 'Standard YouTube License',
480                 'title': 'UHDTV TEST 8K VIDEO.mp4'
481             },
482             'params': {
483                 'youtube_include_dash_manifest': True,
484                 'format': '141',
485             },
486             'skip': 'format 141 not served anymore',
487         },
488         # DASH manifest with encrypted signature
489         {
490             'url': 'https://www.youtube.com/watch?v=IB3lcPjvWLA',
491             'info_dict': {
492                 'id': 'IB3lcPjvWLA',
493                 'ext': 'm4a',
494                 'title': 'Afrojack, Spree Wilson - The Spark ft. Spree Wilson',
495                 'description': 'md5:12e7067fa6735a77bdcbb58cb1187d2d',
496                 'uploader': 'AfrojackVEVO',
497                 'uploader_id': 'AfrojackVEVO',
498                 'upload_date': '20131011',
499                 'license': 'Standard YouTube License',
500             },
501             'params': {
502                 'youtube_include_dash_manifest': True,
503                 'format': '141/bestaudio[ext=m4a]',
504             },
505         },
506         # JS player signature function name containing $
507         {
508             'url': 'https://www.youtube.com/watch?v=nfWlot6h_JM',
509             'info_dict': {
510                 'id': 'nfWlot6h_JM',
511                 'ext': 'm4a',
512                 'title': 'Taylor Swift - Shake It Off',
513                 'alt_title': 'Shake It Off',
514                 'description': 'md5:95f66187cd7c8b2c13eb78e1223b63c3',
515                 'uploader': 'TaylorSwiftVEVO',
516                 'uploader_id': 'TaylorSwiftVEVO',
517                 'upload_date': '20140818',
518                 'license': 'Standard YouTube License',
519                 'creator': 'Taylor Swift',
520             },
521             'params': {
522                 'youtube_include_dash_manifest': True,
523                 'format': '141/bestaudio[ext=m4a]',
524             },
525         },
526         # Controversy video
527         {
528             'url': 'https://www.youtube.com/watch?v=T4XJQO3qol8',
529             'info_dict': {
530                 'id': 'T4XJQO3qol8',
531                 'ext': 'mp4',
532                 'upload_date': '20100909',
533                 'uploader': 'The Amazing Atheist',
534                 'uploader_id': 'TheAmazingAtheist',
535                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/TheAmazingAtheist',
536                 'license': 'Standard YouTube License',
537                 'title': 'Burning Everyone\'s Koran',
538                 'description': 'SUBSCRIBE: http://www.youtube.com/saturninefilms\n\nEven Obama has taken a stand against freedom on this issue: http://www.huffingtonpost.com/2010/09/09/obama-gma-interview-quran_n_710282.html',
539             }
540         },
541         # Normal age-gate video (No vevo, embed allowed)
542         {
543             'url': 'https://youtube.com/watch?v=HtVdAasjOgU',
544             'info_dict': {
545                 'id': 'HtVdAasjOgU',
546                 'ext': 'mp4',
547                 'title': 'The Witcher 3: Wild Hunt - The Sword Of Destiny Trailer',
548                 'description': r're:(?s).{100,}About the Game\n.*?The Witcher 3: Wild Hunt.{100,}',
549                 'uploader': 'The Witcher',
550                 'uploader_id': 'WitcherGame',
551                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/WitcherGame',
552                 'upload_date': '20140605',
553                 'license': 'Standard YouTube License',
554                 'age_limit': 18,
555             },
556         },
557         # Age-gate video with encrypted signature
558         {
559             'url': 'https://www.youtube.com/watch?v=6kLq3WMV1nU',
560             'info_dict': {
561                 'id': '6kLq3WMV1nU',
562                 'ext': 'mp4',
563                 'title': 'Dedication To My Ex (Miss That) (Lyric Video)',
564                 'description': 'md5:33765bb339e1b47e7e72b5490139bb41',
565                 'uploader': 'LloydVEVO',
566                 'uploader_id': 'LloydVEVO',
567                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/LloydVEVO',
568                 'upload_date': '20110629',
569                 'license': 'Standard YouTube License',
570                 'age_limit': 18,
571             },
572         },
573         # video_info is None (https://github.com/rg3/youtube-dl/issues/4421)
574         {
575             'url': '__2ABJjxzNo',
576             'info_dict': {
577                 'id': '__2ABJjxzNo',
578                 'ext': 'mp4',
579                 'upload_date': '20100430',
580                 'uploader_id': 'deadmau5',
581                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/deadmau5',
582                 'creator': 'deadmau5',
583                 'description': 'md5:12c56784b8032162bb936a5f76d55360',
584                 'uploader': 'deadmau5',
585                 'license': 'Standard YouTube License',
586                 'title': 'Deadmau5 - Some Chords (HD)',
587                 'alt_title': 'Some Chords',
588             },
589             'expected_warnings': [
590                 'DASH manifest missing',
591             ]
592         },
593         # Olympics (https://github.com/rg3/youtube-dl/issues/4431)
594         {
595             'url': 'lqQg6PlCWgI',
596             'info_dict': {
597                 'id': 'lqQg6PlCWgI',
598                 'ext': 'mp4',
599                 'upload_date': '20150827',
600                 'uploader_id': 'olympic',
601                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/olympic',
602                 'license': 'Standard YouTube License',
603                 'description': 'HO09  - Women -  GER-AUS - Hockey - 31 July 2012 - London 2012 Olympic Games',
604                 'uploader': 'Olympic',
605                 'title': 'Hockey - Women -  GER-AUS - London 2012 Olympic Games',
606             },
607             'params': {
608                 'skip_download': 'requires avconv',
609             }
610         },
611         # Non-square pixels
612         {
613             'url': 'https://www.youtube.com/watch?v=_b-2C3KPAM0',
614             'info_dict': {
615                 'id': '_b-2C3KPAM0',
616                 'ext': 'mp4',
617                 'stretched_ratio': 16 / 9.,
618                 'upload_date': '20110310',
619                 'uploader_id': 'AllenMeow',
620                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/AllenMeow',
621                 'description': 'made by Wacom from Korea | 字幕&加油添醋 by TY\'s Allen | 感謝heylisa00cavey1001同學熱情提供梗及翻譯',
622                 'uploader': '孫艾倫',
623                 'license': 'Standard YouTube License',
624                 'title': '[A-made] 變態妍字幕版 太妍 我就是這樣的人',
625             },
626         },
627         # url_encoded_fmt_stream_map is empty string
628         {
629             'url': 'qEJwOuvDf7I',
630             'info_dict': {
631                 'id': 'qEJwOuvDf7I',
632                 'ext': 'webm',
633                 'title': 'Обсуждение судебной практики по выборам 14 сентября 2014 года в Санкт-Петербурге',
634                 'description': '',
635                 'upload_date': '20150404',
636                 'uploader_id': 'spbelect',
637                 'uploader': 'Наблюдатели Петербурга',
638             },
639             'params': {
640                 'skip_download': 'requires avconv',
641             },
642             'skip': 'This live event has ended.',
643         },
644         # Extraction from multiple DASH manifests (https://github.com/rg3/youtube-dl/pull/6097)
645         {
646             'url': 'https://www.youtube.com/watch?v=FIl7x6_3R5Y',
647             'info_dict': {
648                 'id': 'FIl7x6_3R5Y',
649                 'ext': 'mp4',
650                 'title': 'md5:7b81415841e02ecd4313668cde88737a',
651                 'description': 'md5:116377fd2963b81ec4ce64b542173306',
652                 'upload_date': '20150625',
653                 'uploader_id': 'dorappi2000',
654                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/dorappi2000',
655                 'uploader': 'dorappi2000',
656                 'license': 'Standard YouTube License',
657                 'formats': 'mincount:32',
658             },
659         },
660         # DASH manifest with segment_list
661         {
662             'url': 'https://www.youtube.com/embed/CsmdDsKjzN8',
663             'md5': '8ce563a1d667b599d21064e982ab9e31',
664             'info_dict': {
665                 'id': 'CsmdDsKjzN8',
666                 'ext': 'mp4',
667                 'upload_date': '20150501',  # According to '<meta itemprop="datePublished"', but in other places it's 20150510
668                 'uploader': 'Airtek',
669                 'description': 'Retransmisión en directo de la XVIII media maratón de Zaragoza.',
670                 'uploader_id': 'UCzTzUmjXxxacNnL8I3m4LnQ',
671                 'license': 'Standard YouTube License',
672                 'title': 'Retransmisión XVIII Media maratón Zaragoza 2015',
673             },
674             'params': {
675                 'youtube_include_dash_manifest': True,
676                 'format': '135',  # bestvideo
677             },
678             'skip': 'This live event has ended.',
679         },
680         {
681             # Multifeed videos (multiple cameras), URL is for Main Camera
682             'url': 'https://www.youtube.com/watch?v=jqWvoWXjCVs',
683             'info_dict': {
684                 'id': 'jqWvoWXjCVs',
685                 'title': 'teamPGP: Rocket League Noob Stream',
686                 'description': 'md5:dc7872fb300e143831327f1bae3af010',
687             },
688             'playlist': [{
689                 'info_dict': {
690                     'id': 'jqWvoWXjCVs',
691                     'ext': 'mp4',
692                     'title': 'teamPGP: Rocket League Noob Stream (Main Camera)',
693                     'description': 'md5:dc7872fb300e143831327f1bae3af010',
694                     'upload_date': '20150721',
695                     'uploader': 'Beer Games Beer',
696                     'uploader_id': 'beergamesbeer',
697                     'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/beergamesbeer',
698                     'license': 'Standard YouTube License',
699                 },
700             }, {
701                 'info_dict': {
702                     'id': '6h8e8xoXJzg',
703                     'ext': 'mp4',
704                     'title': 'teamPGP: Rocket League Noob Stream (kreestuh)',
705                     'description': 'md5:dc7872fb300e143831327f1bae3af010',
706                     'upload_date': '20150721',
707                     'uploader': 'Beer Games Beer',
708                     'uploader_id': 'beergamesbeer',
709                     'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/beergamesbeer',
710                     'license': 'Standard YouTube License',
711                 },
712             }, {
713                 'info_dict': {
714                     'id': 'PUOgX5z9xZw',
715                     'ext': 'mp4',
716                     'title': 'teamPGP: Rocket League Noob Stream (grizzle)',
717                     'description': 'md5:dc7872fb300e143831327f1bae3af010',
718                     'upload_date': '20150721',
719                     'uploader': 'Beer Games Beer',
720                     'uploader_id': 'beergamesbeer',
721                     'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/beergamesbeer',
722                     'license': 'Standard YouTube License',
723                 },
724             }, {
725                 'info_dict': {
726                     'id': 'teuwxikvS5k',
727                     'ext': 'mp4',
728                     'title': 'teamPGP: Rocket League Noob Stream (zim)',
729                     'description': 'md5:dc7872fb300e143831327f1bae3af010',
730                     'upload_date': '20150721',
731                     'uploader': 'Beer Games Beer',
732                     'uploader_id': 'beergamesbeer',
733                     'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/beergamesbeer',
734                     'license': 'Standard YouTube License',
735                 },
736             }],
737             'params': {
738                 'skip_download': True,
739             },
740         },
741         {
742             # Multifeed video with comma in title (see https://github.com/rg3/youtube-dl/issues/8536)
743             'url': 'https://www.youtube.com/watch?v=gVfLd0zydlo',
744             'info_dict': {
745                 'id': 'gVfLd0zydlo',
746                 'title': 'DevConf.cz 2016 Day 2 Workshops 1 14:00 - 15:30',
747             },
748             'playlist_count': 2,
749             'skip': 'Not multifeed anymore',
750         },
751         {
752             'url': 'https://vid.plus/FlRa-iH7PGw',
753             'only_matching': True,
754         },
755         {
756             'url': 'https://zwearz.com/watch/9lWxNJF-ufM/electra-woman-dyna-girl-official-trailer-grace-helbig.html',
757             'only_matching': True,
758         },
759         {
760             # Title with JS-like syntax "};" (see https://github.com/rg3/youtube-dl/issues/7468)
761             # Also tests cut-off URL expansion in video description (see
762             # https://github.com/rg3/youtube-dl/issues/1892,
763             # https://github.com/rg3/youtube-dl/issues/8164)
764             'url': 'https://www.youtube.com/watch?v=lsguqyKfVQg',
765             'info_dict': {
766                 'id': 'lsguqyKfVQg',
767                 'ext': 'mp4',
768                 'title': '{dark walk}; Loki/AC/Dishonored; collab w/Elflover21',
769                 'alt_title': 'Dark Walk',
770                 'description': 'md5:8085699c11dc3f597ce0410b0dcbb34a',
771                 'upload_date': '20151119',
772                 'uploader_id': 'IronSoulElf',
773                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/IronSoulElf',
774                 'uploader': 'IronSoulElf',
775                 'license': 'Standard YouTube License',
776                 'creator': 'Todd Haberman, Daniel Law Heath & Aaron Kaplan',
777             },
778             'params': {
779                 'skip_download': True,
780             },
781         },
782         {
783             # Tags with '};' (see https://github.com/rg3/youtube-dl/issues/7468)
784             'url': 'https://www.youtube.com/watch?v=Ms7iBXnlUO8',
785             'only_matching': True,
786         },
787         {
788             # Video with yt:stretch=17:0
789             'url': 'https://www.youtube.com/watch?v=Q39EVAstoRM',
790             'info_dict': {
791                 'id': 'Q39EVAstoRM',
792                 'ext': 'mp4',
793                 'title': 'Clash Of Clans#14 Dicas De Ataque Para CV 4',
794                 'description': 'md5:ee18a25c350637c8faff806845bddee9',
795                 'upload_date': '20151107',
796                 'uploader_id': 'UCCr7TALkRbo3EtFzETQF1LA',
797                 'uploader': 'CH GAMER DROID',
798             },
799             'params': {
800                 'skip_download': True,
801             },
802             'skip': 'This video does not exist.',
803         },
804         {
805             # Video licensed under Creative Commons
806             'url': 'https://www.youtube.com/watch?v=M4gD1WSo5mA',
807             'info_dict': {
808                 'id': 'M4gD1WSo5mA',
809                 'ext': 'mp4',
810                 'title': 'md5:e41008789470fc2533a3252216f1c1d1',
811                 'description': 'md5:a677553cf0840649b731a3024aeff4cc',
812                 'upload_date': '20150127',
813                 'uploader_id': 'BerkmanCenter',
814                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/BerkmanCenter',
815                 'uploader': 'BerkmanCenter',
816                 'license': 'Creative Commons Attribution license (reuse allowed)',
817             },
818             'params': {
819                 'skip_download': True,
820             },
821         },
822         {
823             # Channel-like uploader_url
824             'url': 'https://www.youtube.com/watch?v=eQcmzGIKrzg',
825             'info_dict': {
826                 'id': 'eQcmzGIKrzg',
827                 'ext': 'mp4',
828                 'title': 'Democratic Socialism and Foreign Policy | Bernie Sanders',
829                 'description': 'md5:dda0d780d5a6e120758d1711d062a867',
830                 'upload_date': '20151119',
831                 'uploader': 'Bernie 2016',
832                 'uploader_id': 'UCH1dpzjCEiGAt8CXkryhkZg',
833                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/channel/UCH1dpzjCEiGAt8CXkryhkZg',
834                 'license': 'Creative Commons Attribution license (reuse allowed)',
835             },
836             'params': {
837                 'skip_download': True,
838             },
839         },
840         {
841             'url': 'https://www.youtube.com/watch?feature=player_embedded&amp;amp;v=V36LpHqtcDY',
842             'only_matching': True,
843         },
844         {
845             # YouTube Red paid video (https://github.com/rg3/youtube-dl/issues/10059)
846             'url': 'https://www.youtube.com/watch?v=i1Ko8UG-Tdo',
847             'only_matching': True,
848         },
849         {
850             # Rental video preview
851             'url': 'https://www.youtube.com/watch?v=yYr8q0y5Jfg',
852             'info_dict': {
853                 'id': 'uGpuVWrhIzE',
854                 'ext': 'mp4',
855                 'title': 'Piku - Trailer',
856                 'description': 'md5:c36bd60c3fd6f1954086c083c72092eb',
857                 'upload_date': '20150811',
858                 'uploader': 'FlixMatrix',
859                 'uploader_id': 'FlixMatrixKaravan',
860                 'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/FlixMatrixKaravan',
861                 'license': 'Standard YouTube License',
862             },
863             'params': {
864                 'skip_download': True,
865             },
866         }
867     ]
868
869     def __init__(self, *args, **kwargs):
870         super(YoutubeIE, self).__init__(*args, **kwargs)
871         self._player_cache = {}
872
873     def report_video_info_webpage_download(self, video_id):
874         """Report attempt to download video info webpage."""
875         self.to_screen('%s: Downloading video info webpage' % video_id)
876
877     def report_information_extraction(self, video_id):
878         """Report attempt to extract video information."""
879         self.to_screen('%s: Extracting video information' % video_id)
880
881     def report_unavailable_format(self, video_id, format):
882         """Report extracted video URL."""
883         self.to_screen('%s: Format %s not available' % (video_id, format))
884
885     def report_rtmp_download(self):
886         """Indicate the download will use the RTMP protocol."""
887         self.to_screen('RTMP download detected')
888
889     def _signature_cache_id(self, example_sig):
890         """ Return a string representation of a signature """
891         return '.'.join(compat_str(len(part)) for part in example_sig.split('.'))
892
893     def _extract_signature_function(self, video_id, player_url, example_sig):
894         id_m = re.match(
895             r'.*?-(?P<id>[a-zA-Z0-9_-]+)(?:/watch_as3|/html5player(?:-new)?|/base)?\.(?P<ext>[a-z]+)$',
896             player_url)
897         if not id_m:
898             raise ExtractorError('Cannot identify player %r' % player_url)
899         player_type = id_m.group('ext')
900         player_id = id_m.group('id')
901
902         # Read from filesystem cache
903         func_id = '%s_%s_%s' % (
904             player_type, player_id, self._signature_cache_id(example_sig))
905         assert os.path.basename(func_id) == func_id
906
907         cache_spec = self._downloader.cache.load('youtube-sigfuncs', func_id)
908         if cache_spec is not None:
909             return lambda s: ''.join(s[i] for i in cache_spec)
910
911         download_note = (
912             'Downloading player %s' % player_url
913             if self._downloader.params.get('verbose') else
914             'Downloading %s player %s' % (player_type, player_id)
915         )
916         if player_type == 'js':
917             code = self._download_webpage(
918                 player_url, video_id,
919                 note=download_note,
920                 errnote='Download of %s failed' % player_url)
921             res = self._parse_sig_js(code)
922         elif player_type == 'swf':
923             urlh = self._request_webpage(
924                 player_url, video_id,
925                 note=download_note,
926                 errnote='Download of %s failed' % player_url)
927             code = urlh.read()
928             res = self._parse_sig_swf(code)
929         else:
930             assert False, 'Invalid player type %r' % player_type
931
932         test_string = ''.join(map(compat_chr, range(len(example_sig))))
933         cache_res = res(test_string)
934         cache_spec = [ord(c) for c in cache_res]
935
936         self._downloader.cache.store('youtube-sigfuncs', func_id, cache_spec)
937         return res
938
939     def _print_sig_code(self, func, example_sig):
940         def gen_sig_code(idxs):
941             def _genslice(start, end, step):
942                 starts = '' if start == 0 else str(start)
943                 ends = (':%d' % (end + step)) if end + step >= 0 else ':'
944                 steps = '' if step == 1 else (':%d' % step)
945                 return 's[%s%s%s]' % (starts, ends, steps)
946
947             step = None
948             # Quelch pyflakes warnings - start will be set when step is set
949             start = '(Never used)'
950             for i, prev in zip(idxs[1:], idxs[:-1]):
951                 if step is not None:
952                     if i - prev == step:
953                         continue
954                     yield _genslice(start, prev, step)
955                     step = None
956                     continue
957                 if i - prev in [-1, 1]:
958                     step = i - prev
959                     start = prev
960                     continue
961                 else:
962                     yield 's[%d]' % prev
963             if step is None:
964                 yield 's[%d]' % i
965             else:
966                 yield _genslice(start, i, step)
967
968         test_string = ''.join(map(compat_chr, range(len(example_sig))))
969         cache_res = func(test_string)
970         cache_spec = [ord(c) for c in cache_res]
971         expr_code = ' + '.join(gen_sig_code(cache_spec))
972         signature_id_tuple = '(%s)' % (
973             ', '.join(compat_str(len(p)) for p in example_sig.split('.')))
974         code = ('if tuple(len(p) for p in s.split(\'.\')) == %s:\n'
975                 '    return %s\n') % (signature_id_tuple, expr_code)
976         self.to_screen('Extracted signature function:\n' + code)
977
978     def _parse_sig_js(self, jscode):
979         funcname = self._search_regex(
980             r'\.sig\|\|([a-zA-Z0-9$]+)\(', jscode,
981             'Initial JS player signature function name')
982
983         jsi = JSInterpreter(jscode)
984         initial_function = jsi.extract_function(funcname)
985         return lambda s: initial_function([s])
986
987     def _parse_sig_swf(self, file_contents):
988         swfi = SWFInterpreter(file_contents)
989         TARGET_CLASSNAME = 'SignatureDecipher'
990         searched_class = swfi.extract_class(TARGET_CLASSNAME)
991         initial_function = swfi.extract_function(searched_class, 'decipher')
992         return lambda s: initial_function([s])
993
994     def _decrypt_signature(self, s, video_id, player_url, age_gate=False):
995         """Turn the encrypted s field into a working signature"""
996
997         if player_url is None:
998             raise ExtractorError('Cannot decrypt signature without player_url')
999
1000         if player_url.startswith('//'):
1001             player_url = 'https:' + player_url
1002         try:
1003             player_id = (player_url, self._signature_cache_id(s))
1004             if player_id not in self._player_cache:
1005                 func = self._extract_signature_function(
1006                     video_id, player_url, s
1007                 )
1008                 self._player_cache[player_id] = func
1009             func = self._player_cache[player_id]
1010             if self._downloader.params.get('youtube_print_sig_code'):
1011                 self._print_sig_code(func, s)
1012             return func(s)
1013         except Exception as e:
1014             tb = traceback.format_exc()
1015             raise ExtractorError(
1016                 'Signature extraction failed: ' + tb, cause=e)
1017
1018     def _get_subtitles(self, video_id, webpage):
1019         try:
1020             subs_doc = self._download_xml(
1021                 'https://video.google.com/timedtext?hl=en&type=list&v=%s' % video_id,
1022                 video_id, note=False)
1023         except ExtractorError as err:
1024             self._downloader.report_warning('unable to download video subtitles: %s' % error_to_compat_str(err))
1025             return {}
1026
1027         sub_lang_list = {}
1028         for track in subs_doc.findall('track'):
1029             lang = track.attrib['lang_code']
1030             if lang in sub_lang_list:
1031                 continue
1032             sub_formats = []
1033             for ext in self._SUBTITLE_FORMATS:
1034                 params = compat_urllib_parse_urlencode({
1035                     'lang': lang,
1036                     'v': video_id,
1037                     'fmt': ext,
1038                     'name': track.attrib['name'].encode('utf-8'),
1039                 })
1040                 sub_formats.append({
1041                     'url': 'https://www.youtube.com/api/timedtext?' + params,
1042                     'ext': ext,
1043                 })
1044             sub_lang_list[lang] = sub_formats
1045         if not sub_lang_list:
1046             self._downloader.report_warning('video doesn\'t have subtitles')
1047             return {}
1048         return sub_lang_list
1049
1050     def _get_ytplayer_config(self, video_id, webpage):
1051         patterns = (
1052             # User data may contain arbitrary character sequences that may affect
1053             # JSON extraction with regex, e.g. when '};' is contained the second
1054             # regex won't capture the whole JSON. Yet working around by trying more
1055             # concrete regex first keeping in mind proper quoted string handling
1056             # to be implemented in future that will replace this workaround (see
1057             # https://github.com/rg3/youtube-dl/issues/7468,
1058             # https://github.com/rg3/youtube-dl/pull/7599)
1059             r';ytplayer\.config\s*=\s*({.+?});ytplayer',
1060             r';ytplayer\.config\s*=\s*({.+?});',
1061         )
1062         config = self._search_regex(
1063             patterns, webpage, 'ytplayer.config', default=None)
1064         if config:
1065             return self._parse_json(
1066                 uppercase_escape(config), video_id, fatal=False)
1067
1068     def _get_automatic_captions(self, video_id, webpage):
1069         """We need the webpage for getting the captions url, pass it as an
1070            argument to speed up the process."""
1071         self.to_screen('%s: Looking for automatic captions' % video_id)
1072         player_config = self._get_ytplayer_config(video_id, webpage)
1073         err_msg = 'Couldn\'t find automatic captions for %s' % video_id
1074         if not player_config:
1075             self._downloader.report_warning(err_msg)
1076             return {}
1077         try:
1078             args = player_config['args']
1079             caption_url = args.get('ttsurl')
1080             if caption_url:
1081                 timestamp = args['timestamp']
1082                 # We get the available subtitles
1083                 list_params = compat_urllib_parse_urlencode({
1084                     'type': 'list',
1085                     'tlangs': 1,
1086                     'asrs': 1,
1087                 })
1088                 list_url = caption_url + '&' + list_params
1089                 caption_list = self._download_xml(list_url, video_id)
1090                 original_lang_node = caption_list.find('track')
1091                 if original_lang_node is None:
1092                     self._downloader.report_warning('Video doesn\'t have automatic captions')
1093                     return {}
1094                 original_lang = original_lang_node.attrib['lang_code']
1095                 caption_kind = original_lang_node.attrib.get('kind', '')
1096
1097                 sub_lang_list = {}
1098                 for lang_node in caption_list.findall('target'):
1099                     sub_lang = lang_node.attrib['lang_code']
1100                     sub_formats = []
1101                     for ext in self._SUBTITLE_FORMATS:
1102                         params = compat_urllib_parse_urlencode({
1103                             'lang': original_lang,
1104                             'tlang': sub_lang,
1105                             'fmt': ext,
1106                             'ts': timestamp,
1107                             'kind': caption_kind,
1108                         })
1109                         sub_formats.append({
1110                             'url': caption_url + '&' + params,
1111                             'ext': ext,
1112                         })
1113                     sub_lang_list[sub_lang] = sub_formats
1114                 return sub_lang_list
1115
1116             # Some videos don't provide ttsurl but rather caption_tracks and
1117             # caption_translation_languages (e.g. 20LmZk1hakA)
1118             caption_tracks = args['caption_tracks']
1119             caption_translation_languages = args['caption_translation_languages']
1120             caption_url = compat_parse_qs(caption_tracks.split(',')[0])['u'][0]
1121             parsed_caption_url = compat_urllib_parse_urlparse(caption_url)
1122             caption_qs = compat_parse_qs(parsed_caption_url.query)
1123
1124             sub_lang_list = {}
1125             for lang in caption_translation_languages.split(','):
1126                 lang_qs = compat_parse_qs(compat_urllib_parse_unquote_plus(lang))
1127                 sub_lang = lang_qs.get('lc', [None])[0]
1128                 if not sub_lang:
1129                     continue
1130                 sub_formats = []
1131                 for ext in self._SUBTITLE_FORMATS:
1132                     caption_qs.update({
1133                         'tlang': [sub_lang],
1134                         'fmt': [ext],
1135                     })
1136                     sub_url = compat_urlparse.urlunparse(parsed_caption_url._replace(
1137                         query=compat_urllib_parse_urlencode(caption_qs, True)))
1138                     sub_formats.append({
1139                         'url': sub_url,
1140                         'ext': ext,
1141                     })
1142                 sub_lang_list[sub_lang] = sub_formats
1143             return sub_lang_list
1144         # An extractor error can be raise by the download process if there are
1145         # no automatic captions but there are subtitles
1146         except (KeyError, ExtractorError):
1147             self._downloader.report_warning(err_msg)
1148             return {}
1149
1150     def _mark_watched(self, video_id, video_info):
1151         playback_url = video_info.get('videostats_playback_base_url', [None])[0]
1152         if not playback_url:
1153             return
1154         parsed_playback_url = compat_urlparse.urlparse(playback_url)
1155         qs = compat_urlparse.parse_qs(parsed_playback_url.query)
1156
1157         # cpn generation algorithm is reverse engineered from base.js.
1158         # In fact it works even with dummy cpn.
1159         CPN_ALPHABET = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789-_'
1160         cpn = ''.join((CPN_ALPHABET[random.randint(0, 256) & 63] for _ in range(0, 16)))
1161
1162         qs.update({
1163             'ver': ['2'],
1164             'cpn': [cpn],
1165         })
1166         playback_url = compat_urlparse.urlunparse(
1167             parsed_playback_url._replace(query=compat_urllib_parse_urlencode(qs, True)))
1168
1169         self._download_webpage(
1170             playback_url, video_id, 'Marking watched',
1171             'Unable to mark watched', fatal=False)
1172
1173     @classmethod
1174     def extract_id(cls, url):
1175         mobj = re.match(cls._VALID_URL, url, re.VERBOSE)
1176         if mobj is None:
1177             raise ExtractorError('Invalid URL: %s' % url)
1178         video_id = mobj.group(2)
1179         return video_id
1180
1181     def _extract_from_m3u8(self, manifest_url, video_id):
1182         url_map = {}
1183
1184         def _get_urls(_manifest):
1185             lines = _manifest.split('\n')
1186             urls = filter(lambda l: l and not l.startswith('#'),
1187                           lines)
1188             return urls
1189         manifest = self._download_webpage(manifest_url, video_id, 'Downloading formats manifest')
1190         formats_urls = _get_urls(manifest)
1191         for format_url in formats_urls:
1192             itag = self._search_regex(r'itag/(\d+?)/', format_url, 'itag')
1193             url_map[itag] = format_url
1194         return url_map
1195
1196     def _extract_annotations(self, video_id):
1197         url = 'https://www.youtube.com/annotations_invideo?features=1&legacy=1&video_id=%s' % video_id
1198         return self._download_webpage(url, video_id, note='Searching for annotations.', errnote='Unable to download video annotations.')
1199
1200     def _real_extract(self, url):
1201         url, smuggled_data = unsmuggle_url(url, {})
1202
1203         proto = (
1204             'http' if self._downloader.params.get('prefer_insecure', False)
1205             else 'https')
1206
1207         start_time = None
1208         end_time = None
1209         parsed_url = compat_urllib_parse_urlparse(url)
1210         for component in [parsed_url.fragment, parsed_url.query]:
1211             query = compat_parse_qs(component)
1212             if start_time is None and 't' in query:
1213                 start_time = parse_duration(query['t'][0])
1214             if start_time is None and 'start' in query:
1215                 start_time = parse_duration(query['start'][0])
1216             if end_time is None and 'end' in query:
1217                 end_time = parse_duration(query['end'][0])
1218
1219         # Extract original video URL from URL with redirection, like age verification, using next_url parameter
1220         mobj = re.search(self._NEXT_URL_RE, url)
1221         if mobj:
1222             url = proto + '://www.youtube.com/' + compat_urllib_parse_unquote(mobj.group(1)).lstrip('/')
1223         video_id = self.extract_id(url)
1224
1225         # Get video webpage
1226         url = proto + '://www.youtube.com/watch?v=%s&gl=US&hl=en&has_verified=1&bpctr=9999999999' % video_id
1227         video_webpage = self._download_webpage(url, video_id)
1228
1229         # Attempt to extract SWF player URL
1230         mobj = re.search(r'swfConfig.*?"(https?:\\/\\/.*?watch.*?-.*?\.swf)"', video_webpage)
1231         if mobj is not None:
1232             player_url = re.sub(r'\\(.)', r'\1', mobj.group(1))
1233         else:
1234             player_url = None
1235
1236         dash_mpds = []
1237
1238         def add_dash_mpd(video_info):
1239             dash_mpd = video_info.get('dashmpd')
1240             if dash_mpd and dash_mpd[0] not in dash_mpds:
1241                 dash_mpds.append(dash_mpd[0])
1242
1243         # Get video info
1244         embed_webpage = None
1245         is_live = None
1246         if re.search(r'player-age-gate-content">', video_webpage) is not None:
1247             age_gate = True
1248             # We simulate the access to the video from www.youtube.com/v/{video_id}
1249             # this can be viewed without login into Youtube
1250             url = proto + '://www.youtube.com/embed/%s' % video_id
1251             embed_webpage = self._download_webpage(url, video_id, 'Downloading embed webpage')
1252             data = compat_urllib_parse_urlencode({
1253                 'video_id': video_id,
1254                 'eurl': 'https://youtube.googleapis.com/v/' + video_id,
1255                 'sts': self._search_regex(
1256                     r'"sts"\s*:\s*(\d+)', embed_webpage, 'sts', default=''),
1257             })
1258             video_info_url = proto + '://www.youtube.com/get_video_info?' + data
1259             video_info_webpage = self._download_webpage(
1260                 video_info_url, video_id,
1261                 note='Refetching age-gated info webpage',
1262                 errnote='unable to download video info webpage')
1263             video_info = compat_parse_qs(video_info_webpage)
1264             add_dash_mpd(video_info)
1265         else:
1266             age_gate = False
1267             video_info = None
1268             # Try looking directly into the video webpage
1269             ytplayer_config = self._get_ytplayer_config(video_id, video_webpage)
1270             if ytplayer_config:
1271                 args = ytplayer_config['args']
1272                 if args.get('url_encoded_fmt_stream_map'):
1273                     # Convert to the same format returned by compat_parse_qs
1274                     video_info = dict((k, [v]) for k, v in args.items())
1275                     add_dash_mpd(video_info)
1276                 # Rental video is not rented but preview is available (e.g.
1277                 # https://www.youtube.com/watch?v=yYr8q0y5Jfg,
1278                 # https://github.com/rg3/youtube-dl/issues/10532)
1279                 if not video_info and args.get('ypc_vid'):
1280                     return self.url_result(
1281                         args['ypc_vid'], YoutubeIE.ie_key(), video_id=args['ypc_vid'])
1282                 if args.get('livestream') == '1' or args.get('live_playback') == 1:
1283                     is_live = True
1284             if not video_info or self._downloader.params.get('youtube_include_dash_manifest', True):
1285                 # We also try looking in get_video_info since it may contain different dashmpd
1286                 # URL that points to a DASH manifest with possibly different itag set (some itags
1287                 # are missing from DASH manifest pointed by webpage's dashmpd, some - from DASH
1288                 # manifest pointed by get_video_info's dashmpd).
1289                 # The general idea is to take a union of itags of both DASH manifests (for example
1290                 # video with such 'manifest behavior' see https://github.com/rg3/youtube-dl/issues/6093)
1291                 self.report_video_info_webpage_download(video_id)
1292                 for el_type in ['&el=info', '&el=embedded', '&el=detailpage', '&el=vevo', '']:
1293                     video_info_url = (
1294                         '%s://www.youtube.com/get_video_info?&video_id=%s%s&ps=default&eurl=&gl=US&hl=en'
1295                         % (proto, video_id, el_type))
1296                     video_info_webpage = self._download_webpage(
1297                         video_info_url,
1298                         video_id, note=False,
1299                         errnote='unable to download video info webpage')
1300                     get_video_info = compat_parse_qs(video_info_webpage)
1301                     if get_video_info.get('use_cipher_signature') != ['True']:
1302                         add_dash_mpd(get_video_info)
1303                     if not video_info:
1304                         video_info = get_video_info
1305                     if 'token' in get_video_info:
1306                         # Different get_video_info requests may report different results, e.g.
1307                         # some may report video unavailability, but some may serve it without
1308                         # any complaint (see https://github.com/rg3/youtube-dl/issues/7362,
1309                         # the original webpage as well as el=info and el=embedded get_video_info
1310                         # requests report video unavailability due to geo restriction while
1311                         # el=detailpage succeeds and returns valid data). This is probably
1312                         # due to YouTube measures against IP ranges of hosting providers.
1313                         # Working around by preferring the first succeeded video_info containing
1314                         # the token if no such video_info yet was found.
1315                         if 'token' not in video_info:
1316                             video_info = get_video_info
1317                         break
1318         if 'token' not in video_info:
1319             if 'reason' in video_info:
1320                 if 'The uploader has not made this video available in your country.' in video_info['reason']:
1321                     regions_allowed = self._html_search_meta('regionsAllowed', video_webpage, default=None)
1322                     if regions_allowed:
1323                         raise ExtractorError('YouTube said: This video is available in %s only' % (
1324                             ', '.join(map(ISO3166Utils.short2full, regions_allowed.split(',')))),
1325                             expected=True)
1326                 raise ExtractorError(
1327                     'YouTube said: %s' % video_info['reason'][0],
1328                     expected=True, video_id=video_id)
1329             else:
1330                 raise ExtractorError(
1331                     '"token" parameter not in video info for unknown reason',
1332                     video_id=video_id)
1333
1334         # title
1335         if 'title' in video_info:
1336             video_title = video_info['title'][0]
1337         else:
1338             self._downloader.report_warning('Unable to extract video title')
1339             video_title = '_'
1340
1341         # description
1342         video_description = get_element_by_id("eow-description", video_webpage)
1343         if video_description:
1344             video_description = re.sub(r'''(?x)
1345                 <a\s+
1346                     (?:[a-zA-Z-]+="[^"]*"\s+)*?
1347                     (?:title|href)="([^"]+)"\s+
1348                     (?:[a-zA-Z-]+="[^"]*"\s+)*?
1349                     class="[^"]*"[^>]*>
1350                 [^<]+\.{3}\s*
1351                 </a>
1352             ''', r'\1', video_description)
1353             video_description = clean_html(video_description)
1354         else:
1355             fd_mobj = re.search(r'<meta name="description" content="([^"]+)"', video_webpage)
1356             if fd_mobj:
1357                 video_description = unescapeHTML(fd_mobj.group(1))
1358             else:
1359                 video_description = ''
1360
1361         if 'multifeed_metadata_list' in video_info and not smuggled_data.get('force_singlefeed', False):
1362             if not self._downloader.params.get('noplaylist'):
1363                 entries = []
1364                 feed_ids = []
1365                 multifeed_metadata_list = video_info['multifeed_metadata_list'][0]
1366                 for feed in multifeed_metadata_list.split(','):
1367                     # Unquote should take place before split on comma (,) since textual
1368                     # fields may contain comma as well (see
1369                     # https://github.com/rg3/youtube-dl/issues/8536)
1370                     feed_data = compat_parse_qs(compat_urllib_parse_unquote_plus(feed))
1371                     entries.append({
1372                         '_type': 'url_transparent',
1373                         'ie_key': 'Youtube',
1374                         'url': smuggle_url(
1375                             '%s://www.youtube.com/watch?v=%s' % (proto, feed_data['id'][0]),
1376                             {'force_singlefeed': True}),
1377                         'title': '%s (%s)' % (video_title, feed_data['title'][0]),
1378                     })
1379                     feed_ids.append(feed_data['id'][0])
1380                 self.to_screen(
1381                     'Downloading multifeed video (%s) - add --no-playlist to just download video %s'
1382                     % (', '.join(feed_ids), video_id))
1383                 return self.playlist_result(entries, video_id, video_title, video_description)
1384             self.to_screen('Downloading just video %s because of --no-playlist' % video_id)
1385
1386         if 'view_count' in video_info:
1387             view_count = int(video_info['view_count'][0])
1388         else:
1389             view_count = None
1390
1391         # Check for "rental" videos
1392         if 'ypc_video_rental_bar_text' in video_info and 'author' not in video_info:
1393             raise ExtractorError('"rental" videos not supported')
1394
1395         # Start extracting information
1396         self.report_information_extraction(video_id)
1397
1398         # uploader
1399         if 'author' not in video_info:
1400             raise ExtractorError('Unable to extract uploader name')
1401         video_uploader = compat_urllib_parse_unquote_plus(video_info['author'][0])
1402
1403         # uploader_id
1404         video_uploader_id = None
1405         video_uploader_url = None
1406         mobj = re.search(
1407             r'<link itemprop="url" href="(?P<uploader_url>https?://www.youtube.com/(?:user|channel)/(?P<uploader_id>[^"]+))">',
1408             video_webpage)
1409         if mobj is not None:
1410             video_uploader_id = mobj.group('uploader_id')
1411             video_uploader_url = mobj.group('uploader_url')
1412         else:
1413             self._downloader.report_warning('unable to extract uploader nickname')
1414
1415         # thumbnail image
1416         # We try first to get a high quality image:
1417         m_thumb = re.search(r'<span itemprop="thumbnail".*?href="(.*?)">',
1418                             video_webpage, re.DOTALL)
1419         if m_thumb is not None:
1420             video_thumbnail = m_thumb.group(1)
1421         elif 'thumbnail_url' not in video_info:
1422             self._downloader.report_warning('unable to extract video thumbnail')
1423             video_thumbnail = None
1424         else:   # don't panic if we can't find it
1425             video_thumbnail = compat_urllib_parse_unquote_plus(video_info['thumbnail_url'][0])
1426
1427         # upload date
1428         upload_date = self._html_search_meta(
1429             'datePublished', video_webpage, 'upload date', default=None)
1430         if not upload_date:
1431             upload_date = self._search_regex(
1432                 [r'(?s)id="eow-date.*?>(.*?)</span>',
1433                  r'id="watch-uploader-info".*?>.*?(?:Published|Uploaded|Streamed live|Started) on (.+?)</strong>'],
1434                 video_webpage, 'upload date', default=None)
1435             if upload_date:
1436                 upload_date = ' '.join(re.sub(r'[/,-]', r' ', mobj.group(1)).split())
1437         upload_date = unified_strdate(upload_date)
1438
1439         video_license = self._html_search_regex(
1440             r'<h4[^>]+class="title"[^>]*>\s*License\s*</h4>\s*<ul[^>]*>\s*<li>(.+?)</li',
1441             video_webpage, 'license', default=None)
1442
1443         m_music = re.search(
1444             r'<h4[^>]+class="title"[^>]*>\s*Music\s*</h4>\s*<ul[^>]*>\s*<li>(?P<title>.+?) by (?P<creator>.+?)(?:\(.+?\))?</li',
1445             video_webpage)
1446         if m_music:
1447             video_alt_title = remove_quotes(unescapeHTML(m_music.group('title')))
1448             video_creator = clean_html(m_music.group('creator'))
1449         else:
1450             video_alt_title = video_creator = None
1451
1452         m_cat_container = self._search_regex(
1453             r'(?s)<h4[^>]*>\s*Category\s*</h4>\s*<ul[^>]*>(.*?)</ul>',
1454             video_webpage, 'categories', default=None)
1455         if m_cat_container:
1456             category = self._html_search_regex(
1457                 r'(?s)<a[^<]+>(.*?)</a>', m_cat_container, 'category',
1458                 default=None)
1459             video_categories = None if category is None else [category]
1460         else:
1461             video_categories = None
1462
1463         video_tags = [
1464             unescapeHTML(m.group('content'))
1465             for m in re.finditer(self._meta_regex('og:video:tag'), video_webpage)]
1466
1467         def _extract_count(count_name):
1468             return str_to_int(self._search_regex(
1469                 r'-%s-button[^>]+><span[^>]+class="yt-uix-button-content"[^>]*>([\d,]+)</span>'
1470                 % re.escape(count_name),
1471                 video_webpage, count_name, default=None))
1472
1473         like_count = _extract_count('like')
1474         dislike_count = _extract_count('dislike')
1475
1476         # subtitles
1477         video_subtitles = self.extract_subtitles(video_id, video_webpage)
1478         automatic_captions = self.extract_automatic_captions(video_id, video_webpage)
1479
1480         if 'length_seconds' not in video_info:
1481             self._downloader.report_warning('unable to extract video duration')
1482             video_duration = None
1483         else:
1484             video_duration = int(compat_urllib_parse_unquote_plus(video_info['length_seconds'][0]))
1485
1486         # annotations
1487         video_annotations = None
1488         if self._downloader.params.get('writeannotations', False):
1489             video_annotations = self._extract_annotations(video_id)
1490
1491         def _map_to_format_list(urlmap):
1492             formats = []
1493             for itag, video_real_url in urlmap.items():
1494                 dct = {
1495                     'format_id': itag,
1496                     'url': video_real_url,
1497                     'player_url': player_url,
1498                 }
1499                 if itag in self._formats:
1500                     dct.update(self._formats[itag])
1501                 formats.append(dct)
1502             return formats
1503
1504         if 'conn' in video_info and video_info['conn'][0].startswith('rtmp'):
1505             self.report_rtmp_download()
1506             formats = [{
1507                 'format_id': '_rtmp',
1508                 'protocol': 'rtmp',
1509                 'url': video_info['conn'][0],
1510                 'player_url': player_url,
1511             }]
1512         elif len(video_info.get('url_encoded_fmt_stream_map', [''])[0]) >= 1 or len(video_info.get('adaptive_fmts', [''])[0]) >= 1:
1513             encoded_url_map = video_info.get('url_encoded_fmt_stream_map', [''])[0] + ',' + video_info.get('adaptive_fmts', [''])[0]
1514             if 'rtmpe%3Dyes' in encoded_url_map:
1515                 raise ExtractorError('rtmpe downloads are not supported, see https://github.com/rg3/youtube-dl/issues/343 for more information.', expected=True)
1516             formats_spec = {}
1517             fmt_list = video_info.get('fmt_list', [''])[0]
1518             if fmt_list:
1519                 for fmt in fmt_list.split(','):
1520                     spec = fmt.split('/')
1521                     if len(spec) > 1:
1522                         width_height = spec[1].split('x')
1523                         if len(width_height) == 2:
1524                             formats_spec[spec[0]] = {
1525                                 'resolution': spec[1],
1526                                 'width': int_or_none(width_height[0]),
1527                                 'height': int_or_none(width_height[1]),
1528                             }
1529             formats = []
1530             for url_data_str in encoded_url_map.split(','):
1531                 url_data = compat_parse_qs(url_data_str)
1532                 if 'itag' not in url_data or 'url' not in url_data:
1533                     continue
1534                 format_id = url_data['itag'][0]
1535                 url = url_data['url'][0]
1536
1537                 if 'sig' in url_data:
1538                     url += '&signature=' + url_data['sig'][0]
1539                 elif 's' in url_data:
1540                     encrypted_sig = url_data['s'][0]
1541                     ASSETS_RE = r'"assets":.+?"js":\s*("[^"]+")'
1542
1543                     jsplayer_url_json = self._search_regex(
1544                         ASSETS_RE,
1545                         embed_webpage if age_gate else video_webpage,
1546                         'JS player URL (1)', default=None)
1547                     if not jsplayer_url_json and not age_gate:
1548                         # We need the embed website after all
1549                         if embed_webpage is None:
1550                             embed_url = proto + '://www.youtube.com/embed/%s' % video_id
1551                             embed_webpage = self._download_webpage(
1552                                 embed_url, video_id, 'Downloading embed webpage')
1553                         jsplayer_url_json = self._search_regex(
1554                             ASSETS_RE, embed_webpage, 'JS player URL')
1555
1556                     player_url = json.loads(jsplayer_url_json)
1557                     if player_url is None:
1558                         player_url_json = self._search_regex(
1559                             r'ytplayer\.config.*?"url"\s*:\s*("[^"]+")',
1560                             video_webpage, 'age gate player URL')
1561                         player_url = json.loads(player_url_json)
1562
1563                     if self._downloader.params.get('verbose'):
1564                         if player_url is None:
1565                             player_version = 'unknown'
1566                             player_desc = 'unknown'
1567                         else:
1568                             if player_url.endswith('swf'):
1569                                 player_version = self._search_regex(
1570                                     r'-(.+?)(?:/watch_as3)?\.swf$', player_url,
1571                                     'flash player', fatal=False)
1572                                 player_desc = 'flash player %s' % player_version
1573                             else:
1574                                 player_version = self._search_regex(
1575                                     [r'html5player-([^/]+?)(?:/html5player(?:-new)?)?\.js', r'(?:www|player)-([^/]+)/base\.js'],
1576                                     player_url,
1577                                     'html5 player', fatal=False)
1578                                 player_desc = 'html5 player %s' % player_version
1579
1580                         parts_sizes = self._signature_cache_id(encrypted_sig)
1581                         self.to_screen('{%s} signature length %s, %s' %
1582                                        (format_id, parts_sizes, player_desc))
1583
1584                     signature = self._decrypt_signature(
1585                         encrypted_sig, video_id, player_url, age_gate)
1586                     url += '&signature=' + signature
1587                 if 'ratebypass' not in url:
1588                     url += '&ratebypass=yes'
1589
1590                 dct = {
1591                     'format_id': format_id,
1592                     'url': url,
1593                     'player_url': player_url,
1594                 }
1595                 if format_id in self._formats:
1596                     dct.update(self._formats[format_id])
1597                 if format_id in formats_spec:
1598                     dct.update(formats_spec[format_id])
1599
1600                 # Some itags are not included in DASH manifest thus corresponding formats will
1601                 # lack metadata (see https://github.com/rg3/youtube-dl/pull/5993).
1602                 # Trying to extract metadata from url_encoded_fmt_stream_map entry.
1603                 mobj = re.search(r'^(?P<width>\d+)[xX](?P<height>\d+)$', url_data.get('size', [''])[0])
1604                 width, height = (int(mobj.group('width')), int(mobj.group('height'))) if mobj else (None, None)
1605
1606                 more_fields = {
1607                     'filesize': int_or_none(url_data.get('clen', [None])[0]),
1608                     'tbr': float_or_none(url_data.get('bitrate', [None])[0], 1000),
1609                     'width': width,
1610                     'height': height,
1611                     'fps': int_or_none(url_data.get('fps', [None])[0]),
1612                     'format_note': url_data.get('quality_label', [None])[0] or url_data.get('quality', [None])[0],
1613                 }
1614                 for key, value in more_fields.items():
1615                     if value:
1616                         dct[key] = value
1617                 type_ = url_data.get('type', [None])[0]
1618                 if type_:
1619                     type_split = type_.split(';')
1620                     kind_ext = type_split[0].split('/')
1621                     if len(kind_ext) == 2:
1622                         kind, _ = kind_ext
1623                         dct['ext'] = mimetype2ext(type_split[0])
1624                         if kind in ('audio', 'video'):
1625                             codecs = None
1626                             for mobj in re.finditer(
1627                                     r'(?P<key>[a-zA-Z_-]+)=(?P<quote>["\']?)(?P<val>.+?)(?P=quote)(?:;|$)', type_):
1628                                 if mobj.group('key') == 'codecs':
1629                                     codecs = mobj.group('val')
1630                                     break
1631                             if codecs:
1632                                 codecs = codecs.split(',')
1633                                 if len(codecs) == 2:
1634                                     acodec, vcodec = codecs[1], codecs[0]
1635                                 else:
1636                                     acodec, vcodec = (codecs[0], 'none') if kind == 'audio' else ('none', codecs[0])
1637                                 dct.update({
1638                                     'acodec': acodec,
1639                                     'vcodec': vcodec,
1640                                 })
1641                 formats.append(dct)
1642         elif video_info.get('hlsvp'):
1643             manifest_url = video_info['hlsvp'][0]
1644             url_map = self._extract_from_m3u8(manifest_url, video_id)
1645             formats = _map_to_format_list(url_map)
1646             # Accept-Encoding header causes failures in live streams on Youtube and Youtube Gaming
1647             for a_format in formats:
1648                 a_format.setdefault('http_headers', {})['Youtubedl-no-compression'] = 'True'
1649         else:
1650             unavailable_message = self._html_search_regex(
1651                 r'(?s)<h1[^>]+id="unavailable-message"[^>]*>(.+?)</h1>',
1652                 video_webpage, 'unavailable message', default=None)
1653             if unavailable_message:
1654                 raise ExtractorError(unavailable_message, expected=True)
1655             raise ExtractorError('no conn, hlsvp or url_encoded_fmt_stream_map information found in video info')
1656
1657         # Look for the DASH manifest
1658         if self._downloader.params.get('youtube_include_dash_manifest', True):
1659             dash_mpd_fatal = True
1660             for mpd_url in dash_mpds:
1661                 dash_formats = {}
1662                 try:
1663                     def decrypt_sig(mobj):
1664                         s = mobj.group(1)
1665                         dec_s = self._decrypt_signature(s, video_id, player_url, age_gate)
1666                         return '/signature/%s' % dec_s
1667
1668                     mpd_url = re.sub(r'/s/([a-fA-F0-9\.]+)', decrypt_sig, mpd_url)
1669
1670                     for df in self._extract_mpd_formats(
1671                             mpd_url, video_id, fatal=dash_mpd_fatal,
1672                             formats_dict=self._formats):
1673                         # Do not overwrite DASH format found in some previous DASH manifest
1674                         if df['format_id'] not in dash_formats:
1675                             dash_formats[df['format_id']] = df
1676                         # Additional DASH manifests may end up in HTTP Error 403 therefore
1677                         # allow them to fail without bug report message if we already have
1678                         # some DASH manifest succeeded. This is temporary workaround to reduce
1679                         # burst of bug reports until we figure out the reason and whether it
1680                         # can be fixed at all.
1681                         dash_mpd_fatal = False
1682                 except (ExtractorError, KeyError) as e:
1683                     self.report_warning(
1684                         'Skipping DASH manifest: %r' % e, video_id)
1685                 if dash_formats:
1686                     # Remove the formats we found through non-DASH, they
1687                     # contain less info and it can be wrong, because we use
1688                     # fixed values (for example the resolution). See
1689                     # https://github.com/rg3/youtube-dl/issues/5774 for an
1690                     # example.
1691                     formats = [f for f in formats if f['format_id'] not in dash_formats.keys()]
1692                     formats.extend(dash_formats.values())
1693
1694         # Check for malformed aspect ratio
1695         stretched_m = re.search(
1696             r'<meta\s+property="og:video:tag".*?content="yt:stretch=(?P<w>[0-9]+):(?P<h>[0-9]+)">',
1697             video_webpage)
1698         if stretched_m:
1699             w = float(stretched_m.group('w'))
1700             h = float(stretched_m.group('h'))
1701             # yt:stretch may hold invalid ratio data (e.g. for Q39EVAstoRM ratio is 17:0).
1702             # We will only process correct ratios.
1703             if w > 0 and h > 0:
1704                 ratio = w / h
1705                 for f in formats:
1706                     if f.get('vcodec') != 'none':
1707                         f['stretched_ratio'] = ratio
1708
1709         self._sort_formats(formats)
1710
1711         self.mark_watched(video_id, video_info)
1712
1713         return {
1714             'id': video_id,
1715             'uploader': video_uploader,
1716             'uploader_id': video_uploader_id,
1717             'uploader_url': video_uploader_url,
1718             'upload_date': upload_date,
1719             'license': video_license,
1720             'creator': video_creator,
1721             'title': video_title,
1722             'alt_title': video_alt_title,
1723             'thumbnail': video_thumbnail,
1724             'description': video_description,
1725             'categories': video_categories,
1726             'tags': video_tags,
1727             'subtitles': video_subtitles,
1728             'automatic_captions': automatic_captions,
1729             'duration': video_duration,
1730             'age_limit': 18 if age_gate else 0,
1731             'annotations': video_annotations,
1732             'webpage_url': proto + '://www.youtube.com/watch?v=%s' % video_id,
1733             'view_count': view_count,
1734             'like_count': like_count,
1735             'dislike_count': dislike_count,
1736             'average_rating': float_or_none(video_info.get('avg_rating', [None])[0]),
1737             'formats': formats,
1738             'is_live': is_live,
1739             'start_time': start_time,
1740             'end_time': end_time,
1741         }
1742
1743
1744 class YoutubeSharedVideoIE(InfoExtractor):
1745     _VALID_URL = r'(?:https?:)?//(?:www\.)?youtube\.com/shared\?.*\bci=(?P<id>[0-9A-Za-z_-]{11})'
1746     IE_NAME = 'youtube:shared'
1747
1748     _TEST = {
1749         'url': 'https://www.youtube.com/shared?ci=1nEzmT-M4fU',
1750         'info_dict': {
1751             'id': 'uPDB5I9wfp8',
1752             'ext': 'webm',
1753             'title': 'Pocoyo: 90 minutos de episódios completos Português para crianças - PARTE 3',
1754             'description': 'md5:d9e4d9346a2dfff4c7dc4c8cec0f546d',
1755             'upload_date': '20160219',
1756             'uploader': 'Pocoyo - Português (BR)',
1757             'uploader_id': 'PocoyoBrazil',
1758         },
1759         'add_ie': ['Youtube'],
1760         'params': {
1761             # There are already too many Youtube downloads
1762             'skip_download': True,
1763         },
1764     }
1765
1766     def _real_extract(self, url):
1767         video_id = self._match_id(url)
1768
1769         webpage = self._download_webpage(url, video_id)
1770
1771         real_video_id = self._html_search_meta(
1772             'videoId', webpage, 'YouTube video id', fatal=True)
1773
1774         return self.url_result(real_video_id, YoutubeIE.ie_key())
1775
1776
1777 class YoutubePlaylistIE(YoutubePlaylistBaseInfoExtractor):
1778     IE_DESC = 'YouTube.com playlists'
1779     _VALID_URL = r"""(?x)(?:
1780                         (?:https?://)?
1781                         (?:\w+\.)?
1782                         (?:
1783                             youtube\.com/
1784                             (?:
1785                                (?:course|view_play_list|my_playlists|artist|playlist|watch|embed/videoseries)
1786                                \? (?:.*?[&;])*? (?:p|a|list)=
1787                             |  p/
1788                             )|
1789                             youtu\.be/[0-9A-Za-z_-]{11}\?.*?\blist=
1790                         )
1791                         (
1792                             (?:PL|LL|EC|UU|FL|RD|UL)?[0-9A-Za-z-_]{10,}
1793                             # Top tracks, they can also include dots
1794                             |(?:MC)[\w\.]*
1795                         )
1796                         .*
1797                      |
1798                         ((?:PL|LL|EC|UU|FL|RD|UL)[0-9A-Za-z-_]{10,})
1799                      )"""
1800     _TEMPLATE_URL = 'https://www.youtube.com/playlist?list=%s&disable_polymer=true'
1801     _VIDEO_RE = r'href="\s*/watch\?v=(?P<id>[0-9A-Za-z_-]{11})&amp;[^"]*?index=(?P<index>\d+)(?:[^>]+>(?P<title>[^<]+))?'
1802     IE_NAME = 'youtube:playlist'
1803     _TESTS = [{
1804         'url': 'https://www.youtube.com/playlist?list=PLwiyx1dc3P2JR9N8gQaQN_BCvlSlap7re',
1805         'info_dict': {
1806             'title': 'ytdl test PL',
1807             'id': 'PLwiyx1dc3P2JR9N8gQaQN_BCvlSlap7re',
1808         },
1809         'playlist_count': 3,
1810     }, {
1811         'url': 'https://www.youtube.com/playlist?list=PLtPgu7CB4gbZDA7i_euNxn75ISqxwZPYx',
1812         'info_dict': {
1813             'id': 'PLtPgu7CB4gbZDA7i_euNxn75ISqxwZPYx',
1814             'title': 'YDL_Empty_List',
1815         },
1816         'playlist_count': 0,
1817     }, {
1818         'note': 'Playlist with deleted videos (#651). As a bonus, the video #51 is also twice in this list.',
1819         'url': 'https://www.youtube.com/playlist?list=PLwP_SiAcdui0KVebT0mU9Apz359a4ubsC',
1820         'info_dict': {
1821             'title': '29C3: Not my department',
1822             'id': 'PLwP_SiAcdui0KVebT0mU9Apz359a4ubsC',
1823         },
1824         'playlist_count': 95,
1825     }, {
1826         'note': 'issue #673',
1827         'url': 'PLBB231211A4F62143',
1828         'info_dict': {
1829             'title': '[OLD]Team Fortress 2 (Class-based LP)',
1830             'id': 'PLBB231211A4F62143',
1831         },
1832         'playlist_mincount': 26,
1833     }, {
1834         'note': 'Large playlist',
1835         'url': 'https://www.youtube.com/playlist?list=UUBABnxM4Ar9ten8Mdjj1j0Q',
1836         'info_dict': {
1837             'title': 'Uploads from Cauchemar',
1838             'id': 'UUBABnxM4Ar9ten8Mdjj1j0Q',
1839         },
1840         'playlist_mincount': 799,
1841     }, {
1842         'url': 'PLtPgu7CB4gbY9oDN3drwC3cMbJggS7dKl',
1843         'info_dict': {
1844             'title': 'YDL_safe_search',
1845             'id': 'PLtPgu7CB4gbY9oDN3drwC3cMbJggS7dKl',
1846         },
1847         'playlist_count': 2,
1848     }, {
1849         'note': 'embedded',
1850         'url': 'https://www.youtube.com/embed/videoseries?list=PL6IaIsEjSbf96XFRuNccS_RuEXwNdsoEu',
1851         'playlist_count': 4,
1852         'info_dict': {
1853             'title': 'JODA15',
1854             'id': 'PL6IaIsEjSbf96XFRuNccS_RuEXwNdsoEu',
1855         }
1856     }, {
1857         'note': 'Embedded SWF player',
1858         'url': 'https://www.youtube.com/p/YN5VISEtHet5D4NEvfTd0zcgFk84NqFZ?hl=en_US&fs=1&rel=0',
1859         'playlist_count': 4,
1860         'info_dict': {
1861             'title': 'JODA7',
1862             'id': 'YN5VISEtHet5D4NEvfTd0zcgFk84NqFZ',
1863         }
1864     }, {
1865         'note': 'Buggy playlist: the webpage has a "Load more" button but it doesn\'t have more videos',
1866         'url': 'https://www.youtube.com/playlist?list=UUXw-G3eDE9trcvY2sBMM_aA',
1867         'info_dict': {
1868             'title': 'Uploads from Interstellar Movie',
1869             'id': 'UUXw-G3eDE9trcvY2sBMM_aA',
1870         },
1871         'playlist_mincount': 21,
1872     }, {
1873         # Playlist URL that does not actually serve a playlist
1874         'url': 'https://www.youtube.com/watch?v=FqZTN594JQw&list=PLMYEtVRpaqY00V9W81Cwmzp6N6vZqfUKD4',
1875         'info_dict': {
1876             'id': 'FqZTN594JQw',
1877             'ext': 'webm',
1878             'title': "Smiley's People 01 detective, Adventure Series, Action",
1879             'uploader': 'STREEM',
1880             'uploader_id': 'UCyPhqAZgwYWZfxElWVbVJng',
1881             'uploader_url': r're:https?://(?:www\.)?youtube\.com/channel/UCyPhqAZgwYWZfxElWVbVJng',
1882             'upload_date': '20150526',
1883             'license': 'Standard YouTube License',
1884             'description': 'md5:507cdcb5a49ac0da37a920ece610be80',
1885             'categories': ['People & Blogs'],
1886             'tags': list,
1887             'like_count': int,
1888             'dislike_count': int,
1889         },
1890         'params': {
1891             'skip_download': True,
1892         },
1893         'add_ie': [YoutubeIE.ie_key()],
1894     }, {
1895         'url': 'https://youtu.be/yeWKywCrFtk?list=PL2qgrgXsNUG5ig9cat4ohreBjYLAPC0J5',
1896         'info_dict': {
1897             'id': 'yeWKywCrFtk',
1898             'ext': 'mp4',
1899             'title': 'Small Scale Baler and Braiding Rugs',
1900             'uploader': 'Backus-Page House Museum',
1901             'uploader_id': 'backuspagemuseum',
1902             'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/backuspagemuseum',
1903             'upload_date': '20161008',
1904             'license': 'Standard YouTube License',
1905             'description': 'md5:800c0c78d5eb128500bffd4f0b4f2e8a',
1906             'categories': ['Nonprofits & Activism'],
1907             'tags': list,
1908             'like_count': int,
1909             'dislike_count': int,
1910         },
1911         'params': {
1912             'noplaylist': True,
1913             'skip_download': True,
1914         },
1915     }, {
1916         'url': 'https://youtu.be/uWyaPkt-VOI?list=PL9D9FC436B881BA21',
1917         'only_matching': True,
1918     }]
1919
1920     def _real_initialize(self):
1921         self._login()
1922
1923     def _extract_mix(self, playlist_id):
1924         # The mixes are generated from a single video
1925         # the id of the playlist is just 'RD' + video_id
1926         ids = []
1927         last_id = playlist_id[-11:]
1928         for n in itertools.count(1):
1929             url = 'https://youtube.com/watch?v=%s&list=%s' % (last_id, playlist_id)
1930             webpage = self._download_webpage(
1931                 url, playlist_id, 'Downloading page {0} of Youtube mix'.format(n))
1932             new_ids = orderedSet(re.findall(
1933                 r'''(?xs)data-video-username=".*?".*?
1934                            href="/watch\?v=([0-9A-Za-z_-]{11})&amp;[^"]*?list=%s''' % re.escape(playlist_id),
1935                 webpage))
1936             # Fetch new pages until all the videos are repeated, it seems that
1937             # there are always 51 unique videos.
1938             new_ids = [_id for _id in new_ids if _id not in ids]
1939             if not new_ids:
1940                 break
1941             ids.extend(new_ids)
1942             last_id = ids[-1]
1943
1944         url_results = self._ids_to_results(ids)
1945
1946         search_title = lambda class_name: get_element_by_attribute('class', class_name, webpage)
1947         title_span = (
1948             search_title('playlist-title') or
1949             search_title('title long-title') or
1950             search_title('title'))
1951         title = clean_html(title_span)
1952
1953         return self.playlist_result(url_results, playlist_id, title)
1954
1955     def _extract_playlist(self, playlist_id):
1956         url = self._TEMPLATE_URL % playlist_id
1957         page = self._download_webpage(url, playlist_id)
1958
1959         for match in re.findall(r'<div class="yt-alert-message">([^<]+)</div>', page):
1960             match = match.strip()
1961             # Check if the playlist exists or is private
1962             if re.match(r'[^<]*(The|This) playlist (does not exist|is private)[^<]*', match):
1963                 raise ExtractorError(
1964                     'The playlist doesn\'t exist or is private, use --username or '
1965                     '--netrc to access it.',
1966                     expected=True)
1967             elif re.match(r'[^<]*Invalid parameters[^<]*', match):
1968                 raise ExtractorError(
1969                     'Invalid parameters. Maybe URL is incorrect.',
1970                     expected=True)
1971             elif re.match(r'[^<]*Choose your language[^<]*', match):
1972                 continue
1973             else:
1974                 self.report_warning('Youtube gives an alert message: ' + match)
1975
1976         playlist_title = self._html_search_regex(
1977             r'(?s)<h1 class="pl-header-title[^"]*"[^>]*>\s*(.*?)\s*</h1>',
1978             page, 'title', default=None)
1979
1980         has_videos = True
1981
1982         if not playlist_title:
1983             try:
1984                 # Some playlist URLs don't actually serve a playlist (e.g.
1985                 # https://www.youtube.com/watch?v=FqZTN594JQw&list=PLMYEtVRpaqY00V9W81Cwmzp6N6vZqfUKD4)
1986                 next(self._entries(page, playlist_id))
1987             except StopIteration:
1988                 has_videos = False
1989
1990         return has_videos, self.playlist_result(
1991             self._entries(page, playlist_id), playlist_id, playlist_title)
1992
1993     def _check_download_just_video(self, url, playlist_id):
1994         # Check if it's a video-specific URL
1995         query_dict = compat_urlparse.parse_qs(compat_urlparse.urlparse(url).query)
1996         video_id = query_dict.get('v', [None])[0] or self._search_regex(
1997             r'(?:^|//)youtu\.be/([0-9A-Za-z_-]{11})', url,
1998             'video id', default=None)
1999         if video_id:
2000             if self._downloader.params.get('noplaylist'):
2001                 self.to_screen('Downloading just video %s because of --no-playlist' % video_id)
2002                 return video_id, self.url_result(video_id, 'Youtube', video_id=video_id)
2003             else:
2004                 self.to_screen('Downloading playlist %s - add --no-playlist to just download video %s' % (playlist_id, video_id))
2005                 return video_id, None
2006         return None, None
2007
2008     def _real_extract(self, url):
2009         # Extract playlist id
2010         mobj = re.match(self._VALID_URL, url)
2011         if mobj is None:
2012             raise ExtractorError('Invalid URL: %s' % url)
2013         playlist_id = mobj.group(1) or mobj.group(2)
2014
2015         video_id, video = self._check_download_just_video(url, playlist_id)
2016         if video:
2017             return video
2018
2019         if playlist_id.startswith(('RD', 'UL', 'PU')):
2020             # Mixes require a custom extraction process
2021             return self._extract_mix(playlist_id)
2022
2023         has_videos, playlist = self._extract_playlist(playlist_id)
2024         if has_videos or not video_id:
2025             return playlist
2026
2027         # Some playlist URLs don't actually serve a playlist (see
2028         # https://github.com/rg3/youtube-dl/issues/10537).
2029         # Fallback to plain video extraction if there is a video id
2030         # along with playlist id.
2031         return self.url_result(video_id, 'Youtube', video_id=video_id)
2032
2033
2034 class YoutubeChannelIE(YoutubePlaylistBaseInfoExtractor):
2035     IE_DESC = 'YouTube.com channels'
2036     _VALID_URL = r'https?://(?:youtu\.be|(?:\w+\.)?youtube(?:-nocookie)?\.com)/channel/(?P<id>[0-9A-Za-z_-]+)'
2037     _TEMPLATE_URL = 'https://www.youtube.com/channel/%s/videos'
2038     _VIDEO_RE = r'(?:title="(?P<title>[^"]+)"[^>]+)?href="/watch\?v=(?P<id>[0-9A-Za-z_-]+)&?'
2039     IE_NAME = 'youtube:channel'
2040     _TESTS = [{
2041         'note': 'paginated channel',
2042         'url': 'https://www.youtube.com/channel/UCKfVa3S1e4PHvxWcwyMMg8w',
2043         'playlist_mincount': 91,
2044         'info_dict': {
2045             'id': 'UUKfVa3S1e4PHvxWcwyMMg8w',
2046             'title': 'Uploads from lex will',
2047         }
2048     }, {
2049         'note': 'Age restricted channel',
2050         # from https://www.youtube.com/user/DeusExOfficial
2051         'url': 'https://www.youtube.com/channel/UCs0ifCMCm1icqRbqhUINa0w',
2052         'playlist_mincount': 64,
2053         'info_dict': {
2054             'id': 'UUs0ifCMCm1icqRbqhUINa0w',
2055             'title': 'Uploads from Deus Ex',
2056         },
2057     }]
2058
2059     @classmethod
2060     def suitable(cls, url):
2061         return (False if YoutubePlaylistsIE.suitable(url) or YoutubeLiveIE.suitable(url)
2062                 else super(YoutubeChannelIE, cls).suitable(url))
2063
2064     def _build_template_url(self, url, channel_id):
2065         return self._TEMPLATE_URL % channel_id
2066
2067     def _real_extract(self, url):
2068         channel_id = self._match_id(url)
2069
2070         url = self._build_template_url(url, channel_id)
2071
2072         # Channel by page listing is restricted to 35 pages of 30 items, i.e. 1050 videos total (see #5778)
2073         # Workaround by extracting as a playlist if managed to obtain channel playlist URL
2074         # otherwise fallback on channel by page extraction
2075         channel_page = self._download_webpage(
2076             url + '?view=57', channel_id,
2077             'Downloading channel page', fatal=False)
2078         if channel_page is False:
2079             channel_playlist_id = False
2080         else:
2081             channel_playlist_id = self._html_search_meta(
2082                 'channelId', channel_page, 'channel id', default=None)
2083             if not channel_playlist_id:
2084                 channel_url = self._html_search_meta(
2085                     ('al:ios:url', 'twitter:app:url:iphone', 'twitter:app:url:ipad'),
2086                     channel_page, 'channel url', default=None)
2087                 if channel_url:
2088                     channel_playlist_id = self._search_regex(
2089                         r'vnd\.youtube://user/([0-9A-Za-z_-]+)',
2090                         channel_url, 'channel id', default=None)
2091         if channel_playlist_id and channel_playlist_id.startswith('UC'):
2092             playlist_id = 'UU' + channel_playlist_id[2:]
2093             return self.url_result(
2094                 compat_urlparse.urljoin(url, '/playlist?list=%s' % playlist_id), 'YoutubePlaylist')
2095
2096         channel_page = self._download_webpage(url, channel_id, 'Downloading page #1')
2097         autogenerated = re.search(r'''(?x)
2098                 class="[^"]*?(?:
2099                     channel-header-autogenerated-label|
2100                     yt-channel-title-autogenerated
2101                 )[^"]*"''', channel_page) is not None
2102
2103         if autogenerated:
2104             # The videos are contained in a single page
2105             # the ajax pages can't be used, they are empty
2106             entries = [
2107                 self.url_result(
2108                     video_id, 'Youtube', video_id=video_id,
2109                     video_title=video_title)
2110                 for video_id, video_title in self.extract_videos_from_page(channel_page)]
2111             return self.playlist_result(entries, channel_id)
2112
2113         try:
2114             next(self._entries(channel_page, channel_id))
2115         except StopIteration:
2116             alert_message = self._html_search_regex(
2117                 r'(?s)<div[^>]+class=(["\']).*?\byt-alert-message\b.*?\1[^>]*>(?P<alert>[^<]+)</div>',
2118                 channel_page, 'alert', default=None, group='alert')
2119             if alert_message:
2120                 raise ExtractorError('Youtube said: %s' % alert_message, expected=True)
2121
2122         return self.playlist_result(self._entries(channel_page, channel_id), channel_id)
2123
2124
2125 class YoutubeUserIE(YoutubeChannelIE):
2126     IE_DESC = 'YouTube.com user videos (URL or "ytuser" keyword)'
2127     _VALID_URL = r'(?:(?:https?://(?:\w+\.)?youtube\.com/(?:(?P<user>user|c)/)?(?!(?:attribution_link|watch|results)(?:$|[^a-z_A-Z0-9-])))|ytuser:)(?!feed/)(?P<id>[A-Za-z0-9_-]+)'
2128     _TEMPLATE_URL = 'https://www.youtube.com/%s/%s/videos'
2129     IE_NAME = 'youtube:user'
2130
2131     _TESTS = [{
2132         'url': 'https://www.youtube.com/user/TheLinuxFoundation',
2133         'playlist_mincount': 320,
2134         'info_dict': {
2135             'id': 'UUfX55Sx5hEFjoC3cNs6mCUQ',
2136             'title': 'Uploads from The Linux Foundation',
2137         }
2138     }, {
2139         # Only available via https://www.youtube.com/c/12minuteathlete/videos
2140         # but not https://www.youtube.com/user/12minuteathlete/videos
2141         'url': 'https://www.youtube.com/c/12minuteathlete/videos',
2142         'playlist_mincount': 249,
2143         'info_dict': {
2144             'id': 'UUVjM-zV6_opMDx7WYxnjZiQ',
2145             'title': 'Uploads from 12 Minute Athlete',
2146         }
2147     }, {
2148         'url': 'ytuser:phihag',
2149         'only_matching': True,
2150     }, {
2151         'url': 'https://www.youtube.com/c/gametrailers',
2152         'only_matching': True,
2153     }, {
2154         'url': 'https://www.youtube.com/gametrailers',
2155         'only_matching': True,
2156     }, {
2157         # This channel is not available.
2158         'url': 'https://www.youtube.com/user/kananishinoSMEJ/videos',
2159         'only_matching': True,
2160     }]
2161
2162     @classmethod
2163     def suitable(cls, url):
2164         # Don't return True if the url can be extracted with other youtube
2165         # extractor, the regex would is too permissive and it would match.
2166         other_yt_ies = iter(klass for (name, klass) in globals().items() if name.startswith('Youtube') and name.endswith('IE') and klass is not cls)
2167         if any(ie.suitable(url) for ie in other_yt_ies):
2168             return False
2169         else:
2170             return super(YoutubeUserIE, cls).suitable(url)
2171
2172     def _build_template_url(self, url, channel_id):
2173         mobj = re.match(self._VALID_URL, url)
2174         return self._TEMPLATE_URL % (mobj.group('user') or 'user', mobj.group('id'))
2175
2176
2177 class YoutubeLiveIE(YoutubeBaseInfoExtractor):
2178     IE_DESC = 'YouTube.com live streams'
2179     _VALID_URL = r'(?P<base_url>https?://(?:\w+\.)?youtube\.com/(?:(?:user|channel|c)/)?(?P<id>[^/]+))/live'
2180     IE_NAME = 'youtube:live'
2181
2182     _TESTS = [{
2183         'url': 'https://www.youtube.com/user/TheYoungTurks/live',
2184         'info_dict': {
2185             'id': 'a48o2S1cPoo',
2186             'ext': 'mp4',
2187             'title': 'The Young Turks - Live Main Show',
2188             'uploader': 'The Young Turks',
2189             'uploader_id': 'TheYoungTurks',
2190             'uploader_url': r're:https?://(?:www\.)?youtube\.com/user/TheYoungTurks',
2191             'upload_date': '20150715',
2192             'license': 'Standard YouTube License',
2193             'description': 'md5:438179573adcdff3c97ebb1ee632b891',
2194             'categories': ['News & Politics'],
2195             'tags': ['Cenk Uygur (TV Program Creator)', 'The Young Turks (Award-Winning Work)', 'Talk Show (TV Genre)'],
2196             'like_count': int,
2197             'dislike_count': int,
2198         },
2199         'params': {
2200             'skip_download': True,
2201         },
2202     }, {
2203         'url': 'https://www.youtube.com/channel/UC1yBKRuGpC1tSM73A0ZjYjQ/live',
2204         'only_matching': True,
2205     }, {
2206         'url': 'https://www.youtube.com/c/CommanderVideoHq/live',
2207         'only_matching': True,
2208     }, {
2209         'url': 'https://www.youtube.com/TheYoungTurks/live',
2210         'only_matching': True,
2211     }]
2212
2213     def _real_extract(self, url):
2214         mobj = re.match(self._VALID_URL, url)
2215         channel_id = mobj.group('id')
2216         base_url = mobj.group('base_url')
2217         webpage = self._download_webpage(url, channel_id, fatal=False)
2218         if webpage:
2219             page_type = self._og_search_property(
2220                 'type', webpage, 'page type', default=None)
2221             video_id = self._html_search_meta(
2222                 'videoId', webpage, 'video id', default=None)
2223             if page_type == 'video' and video_id and re.match(r'^[0-9A-Za-z_-]{11}$', video_id):
2224                 return self.url_result(video_id, YoutubeIE.ie_key())
2225         return self.url_result(base_url)
2226
2227
2228 class YoutubePlaylistsIE(YoutubePlaylistsBaseInfoExtractor):
2229     IE_DESC = 'YouTube.com user/channel playlists'
2230     _VALID_URL = r'https?://(?:\w+\.)?youtube\.com/(?:user|channel)/(?P<id>[^/]+)/playlists'
2231     IE_NAME = 'youtube:playlists'
2232
2233     _TESTS = [{
2234         'url': 'https://www.youtube.com/user/ThirstForScience/playlists',
2235         'playlist_mincount': 4,
2236         'info_dict': {
2237             'id': 'ThirstForScience',
2238             'title': 'Thirst for Science',
2239         },
2240     }, {
2241         # with "Load more" button
2242         'url': 'https://www.youtube.com/user/igorkle1/playlists?view=1&sort=dd',
2243         'playlist_mincount': 70,
2244         'info_dict': {
2245             'id': 'igorkle1',
2246             'title': 'Игорь Клейнер',
2247         },
2248     }, {
2249         'url': 'https://www.youtube.com/channel/UCiU1dHvZObB2iP6xkJ__Icw/playlists',
2250         'playlist_mincount': 17,
2251         'info_dict': {
2252             'id': 'UCiU1dHvZObB2iP6xkJ__Icw',
2253             'title': 'Chem Player',
2254         },
2255     }]
2256
2257
2258 class YoutubeSearchIE(SearchInfoExtractor, YoutubePlaylistIE):
2259     IE_DESC = 'YouTube.com searches'
2260     # there doesn't appear to be a real limit, for example if you search for
2261     # 'python' you get more than 8.000.000 results
2262     _MAX_RESULTS = float('inf')
2263     IE_NAME = 'youtube:search'
2264     _SEARCH_KEY = 'ytsearch'
2265     _EXTRA_QUERY_ARGS = {}
2266     _TESTS = []
2267
2268     def _get_n_results(self, query, n):
2269         """Get a specified number of results for a query"""
2270
2271         videos = []
2272         limit = n
2273
2274         for pagenum in itertools.count(1):
2275             url_query = {
2276                 'search_query': query.encode('utf-8'),
2277                 'page': pagenum,
2278                 'spf': 'navigate',
2279             }
2280             url_query.update(self._EXTRA_QUERY_ARGS)
2281             result_url = 'https://www.youtube.com/results?' + compat_urllib_parse_urlencode(url_query)
2282             data = self._download_json(
2283                 result_url, video_id='query "%s"' % query,
2284                 note='Downloading page %s' % pagenum,
2285                 errnote='Unable to download API page')
2286             html_content = data[1]['body']['content']
2287
2288             if 'class="search-message' in html_content:
2289                 raise ExtractorError(
2290                     '[youtube] No video results', expected=True)
2291
2292             new_videos = self._ids_to_results(orderedSet(re.findall(
2293                 r'href="/watch\?v=(.{11})', html_content)))
2294             videos += new_videos
2295             if not new_videos or len(videos) > limit:
2296                 break
2297
2298         if len(videos) > n:
2299             videos = videos[:n]
2300         return self.playlist_result(videos, query)
2301
2302
2303 class YoutubeSearchDateIE(YoutubeSearchIE):
2304     IE_NAME = YoutubeSearchIE.IE_NAME + ':date'
2305     _SEARCH_KEY = 'ytsearchdate'
2306     IE_DESC = 'YouTube.com searches, newest videos first'
2307     _EXTRA_QUERY_ARGS = {'search_sort': 'video_date_uploaded'}
2308
2309
2310 class YoutubeSearchURLIE(YoutubePlaylistBaseInfoExtractor):
2311     IE_DESC = 'YouTube.com search URLs'
2312     IE_NAME = 'youtube:search_url'
2313     _VALID_URL = r'https?://(?:www\.)?youtube\.com/results\?(.*?&)?(?:search_query|q)=(?P<query>[^&]+)(?:[&]|$)'
2314     _VIDEO_RE = r'href="\s*/watch\?v=(?P<id>[0-9A-Za-z_-]{11})(?:[^"]*"[^>]+\btitle="(?P<title>[^"]+))?'
2315     _TESTS = [{
2316         'url': 'https://www.youtube.com/results?baz=bar&search_query=youtube-dl+test+video&filters=video&lclk=video',
2317         'playlist_mincount': 5,
2318         'info_dict': {
2319             'title': 'youtube-dl test video',
2320         }
2321     }, {
2322         'url': 'https://www.youtube.com/results?q=test&sp=EgQIBBgB',
2323         'only_matching': True,
2324     }]
2325
2326     def _real_extract(self, url):
2327         mobj = re.match(self._VALID_URL, url)
2328         query = compat_urllib_parse_unquote_plus(mobj.group('query'))
2329         webpage = self._download_webpage(url, query)
2330         return self.playlist_result(self._process_page(webpage), playlist_title=query)
2331
2332
2333 class YoutubeShowIE(YoutubePlaylistsBaseInfoExtractor):
2334     IE_DESC = 'YouTube.com (multi-season) shows'
2335     _VALID_URL = r'https?://(?:www\.)?youtube\.com/show/(?P<id>[^?#]*)'
2336     IE_NAME = 'youtube:show'
2337     _TESTS = [{
2338         'url': 'https://www.youtube.com/show/airdisasters',
2339         'playlist_mincount': 5,
2340         'info_dict': {
2341             'id': 'airdisasters',
2342             'title': 'Air Disasters',
2343         }
2344     }]
2345
2346     def _real_extract(self, url):
2347         playlist_id = self._match_id(url)
2348         return super(YoutubeShowIE, self)._real_extract(
2349             'https://www.youtube.com/show/%s/playlists' % playlist_id)
2350
2351
2352 class YoutubeFeedsInfoExtractor(YoutubeBaseInfoExtractor):
2353     """
2354     Base class for feed extractors
2355     Subclasses must define the _FEED_NAME and _PLAYLIST_TITLE properties.
2356     """
2357     _LOGIN_REQUIRED = True
2358
2359     @property
2360     def IE_NAME(self):
2361         return 'youtube:%s' % self._FEED_NAME
2362
2363     def _real_initialize(self):
2364         self._login()
2365
2366     def _real_extract(self, url):
2367         page = self._download_webpage(
2368             'https://www.youtube.com/feed/%s' % self._FEED_NAME, self._PLAYLIST_TITLE)
2369
2370         # The extraction process is the same as for playlists, but the regex
2371         # for the video ids doesn't contain an index
2372         ids = []
2373         more_widget_html = content_html = page
2374         for page_num in itertools.count(1):
2375             matches = re.findall(r'href="\s*/watch\?v=([0-9A-Za-z_-]{11})', content_html)
2376
2377             # 'recommended' feed has infinite 'load more' and each new portion spins
2378             # the same videos in (sometimes) slightly different order, so we'll check
2379             # for unicity and break when portion has no new videos
2380             new_ids = filter(lambda video_id: video_id not in ids, orderedSet(matches))
2381             if not new_ids:
2382                 break
2383
2384             ids.extend(new_ids)
2385
2386             mobj = re.search(r'data-uix-load-more-href="/?(?P<more>[^"]+)"', more_widget_html)
2387             if not mobj:
2388                 break
2389
2390             more = self._download_json(
2391                 'https://youtube.com/%s' % mobj.group('more'), self._PLAYLIST_TITLE,
2392                 'Downloading page #%s' % page_num,
2393                 transform_source=uppercase_escape)
2394             content_html = more['content_html']
2395             more_widget_html = more['load_more_widget_html']
2396
2397         return self.playlist_result(
2398             self._ids_to_results(ids), playlist_title=self._PLAYLIST_TITLE)
2399
2400
2401 class YoutubeWatchLaterIE(YoutubePlaylistIE):
2402     IE_NAME = 'youtube:watchlater'
2403     IE_DESC = 'Youtube watch later list, ":ytwatchlater" for short (requires authentication)'
2404     _VALID_URL = r'https?://(?:www\.)?youtube\.com/(?:feed/watch_later|(?:playlist|watch)\?(?:.+&)?list=WL)|:ytwatchlater'
2405
2406     _TESTS = [{
2407         'url': 'https://www.youtube.com/playlist?list=WL',
2408         'only_matching': True,
2409     }, {
2410         'url': 'https://www.youtube.com/watch?v=bCNU9TrbiRk&index=1&list=WL',
2411         'only_matching': True,
2412     }]
2413
2414     def _real_extract(self, url):
2415         _, video = self._check_download_just_video(url, 'WL')
2416         if video:
2417             return video
2418         _, playlist = self._extract_playlist('WL')
2419         return playlist
2420
2421
2422 class YoutubeFavouritesIE(YoutubeBaseInfoExtractor):
2423     IE_NAME = 'youtube:favorites'
2424     IE_DESC = 'YouTube.com favourite videos, ":ytfav" for short (requires authentication)'
2425     _VALID_URL = r'https?://(?:www\.)?youtube\.com/my_favorites|:ytfav(?:ou?rites)?'
2426     _LOGIN_REQUIRED = True
2427
2428     def _real_extract(self, url):
2429         webpage = self._download_webpage('https://www.youtube.com/my_favorites', 'Youtube Favourites videos')
2430         playlist_id = self._search_regex(r'list=(.+?)["&]', webpage, 'favourites playlist id')
2431         return self.url_result(playlist_id, 'YoutubePlaylist')
2432
2433
2434 class YoutubeRecommendedIE(YoutubeFeedsInfoExtractor):
2435     IE_DESC = 'YouTube.com recommended videos, ":ytrec" for short (requires authentication)'
2436     _VALID_URL = r'https?://(?:www\.)?youtube\.com/feed/recommended|:ytrec(?:ommended)?'
2437     _FEED_NAME = 'recommended'
2438     _PLAYLIST_TITLE = 'Youtube Recommended videos'
2439
2440
2441 class YoutubeSubscriptionsIE(YoutubeFeedsInfoExtractor):
2442     IE_DESC = 'YouTube.com subscriptions feed, "ytsubs" keyword (requires authentication)'
2443     _VALID_URL = r'https?://(?:www\.)?youtube\.com/feed/subscriptions|:ytsubs(?:criptions)?'
2444     _FEED_NAME = 'subscriptions'
2445     _PLAYLIST_TITLE = 'Youtube Subscriptions'
2446
2447
2448 class YoutubeHistoryIE(YoutubeFeedsInfoExtractor):
2449     IE_DESC = 'Youtube watch history, ":ythistory" for short (requires authentication)'
2450     _VALID_URL = r'https?://(?:www\.)?youtube\.com/feed/history|:ythistory'
2451     _FEED_NAME = 'history'
2452     _PLAYLIST_TITLE = 'Youtube History'
2453
2454
2455 class YoutubeTruncatedURLIE(InfoExtractor):
2456     IE_NAME = 'youtube:truncated_url'
2457     IE_DESC = False  # Do not list
2458     _VALID_URL = r'''(?x)
2459         (?:https?://)?
2460         (?:\w+\.)?[yY][oO][uU][tT][uU][bB][eE](?:-nocookie)?\.com/
2461         (?:watch\?(?:
2462             feature=[a-z_]+|
2463             annotation_id=annotation_[^&]+|
2464             x-yt-cl=[0-9]+|
2465             hl=[^&]*|
2466             t=[0-9]+
2467         )?
2468         |
2469             attribution_link\?a=[^&]+
2470         )
2471         $
2472     '''
2473
2474     _TESTS = [{
2475         'url': 'https://www.youtube.com/watch?annotation_id=annotation_3951667041',
2476         'only_matching': True,
2477     }, {
2478         'url': 'https://www.youtube.com/watch?',
2479         'only_matching': True,
2480     }, {
2481         'url': 'https://www.youtube.com/watch?x-yt-cl=84503534',
2482         'only_matching': True,
2483     }, {
2484         'url': 'https://www.youtube.com/watch?feature=foo',
2485         'only_matching': True,
2486     }, {
2487         'url': 'https://www.youtube.com/watch?hl=en-GB',
2488         'only_matching': True,
2489     }, {
2490         'url': 'https://www.youtube.com/watch?t=2372',
2491         'only_matching': True,
2492     }]
2493
2494     def _real_extract(self, url):
2495         raise ExtractorError(
2496             'Did you forget to quote the URL? Remember that & is a meta '
2497             'character in most shells, so you want to put the URL in quotes, '
2498             'like  youtube-dl '
2499             '"https://www.youtube.com/watch?feature=foo&v=BaW_jenozKc" '
2500             ' or simply  youtube-dl BaW_jenozKc  .',
2501             expected=True)
2502
2503
2504 class YoutubeTruncatedIDIE(InfoExtractor):
2505     IE_NAME = 'youtube:truncated_id'
2506     IE_DESC = False  # Do not list
2507     _VALID_URL = r'https?://(?:www\.)?youtube\.com/watch\?v=(?P<id>[0-9A-Za-z_-]{1,10})$'
2508
2509     _TESTS = [{
2510         'url': 'https://www.youtube.com/watch?v=N_708QY7Ob',
2511         'only_matching': True,
2512     }]
2513
2514     def _real_extract(self, url):
2515         video_id = self._match_id(url)
2516         raise ExtractorError(
2517             'Incomplete YouTube ID %s. URL %s looks truncated.' % (video_id, url),
2518             expected=True)