d9e93f5d2c8125aeb4faf15fbc2df81637111bae
[youtube-dl] / youtube_dl / YoutubeDL.py
1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-
3
4 from __future__ import absolute_import, unicode_literals
5
6 import collections
7 import datetime
8 import errno
9 import io
10 import json
11 import locale
12 import os
13 import platform
14 import re
15 import shutil
16 import subprocess
17 import socket
18 import sys
19 import time
20 import traceback
21
22 if os.name == 'nt':
23     import ctypes
24
25 from .compat import (
26     compat_cookiejar,
27     compat_expanduser,
28     compat_http_client,
29     compat_str,
30     compat_urllib_error,
31     compat_urllib_request,
32 )
33 from .utils import (
34     escape_url,
35     ContentTooShortError,
36     date_from_str,
37     DateRange,
38     DEFAULT_OUTTMPL,
39     determine_ext,
40     DownloadError,
41     encodeFilename,
42     ExtractorError,
43     format_bytes,
44     formatSeconds,
45     get_term_width,
46     locked_file,
47     make_HTTPS_handler,
48     MaxDownloadsReached,
49     PagedList,
50     PostProcessingError,
51     platform_name,
52     preferredencoding,
53     SameFileError,
54     sanitize_filename,
55     subtitles_filename,
56     takewhile_inclusive,
57     UnavailableVideoError,
58     url_basename,
59     write_json_file,
60     write_string,
61     YoutubeDLHandler,
62     prepend_extension,
63     args_to_str,
64 )
65 from .cache import Cache
66 from .extractor import get_info_extractor, gen_extractors
67 from .downloader import get_suitable_downloader
68 from .downloader.rtmp import rtmpdump_version
69 from .postprocessor import FFmpegMergerPP, FFmpegPostProcessor
70 from .version import __version__
71
72
73 class YoutubeDL(object):
74     """YoutubeDL class.
75
76     YoutubeDL objects are the ones responsible of downloading the
77     actual video file and writing it to disk if the user has requested
78     it, among some other tasks. In most cases there should be one per
79     program. As, given a video URL, the downloader doesn't know how to
80     extract all the needed information, task that InfoExtractors do, it
81     has to pass the URL to one of them.
82
83     For this, YoutubeDL objects have a method that allows
84     InfoExtractors to be registered in a given order. When it is passed
85     a URL, the YoutubeDL object handles it to the first InfoExtractor it
86     finds that reports being able to handle it. The InfoExtractor extracts
87     all the information about the video or videos the URL refers to, and
88     YoutubeDL process the extracted information, possibly using a File
89     Downloader to download the video.
90
91     YoutubeDL objects accept a lot of parameters. In order not to saturate
92     the object constructor with arguments, it receives a dictionary of
93     options instead. These options are available through the params
94     attribute for the InfoExtractors to use. The YoutubeDL also
95     registers itself as the downloader in charge for the InfoExtractors
96     that are added to it, so this is a "mutual registration".
97
98     Available options:
99
100     username:          Username for authentication purposes.
101     password:          Password for authentication purposes.
102     videopassword:     Password for acces a video.
103     usenetrc:          Use netrc for authentication instead.
104     verbose:           Print additional info to stdout.
105     quiet:             Do not print messages to stdout.
106     no_warnings:       Do not print out anything for warnings.
107     forceurl:          Force printing final URL.
108     forcetitle:        Force printing title.
109     forceid:           Force printing ID.
110     forcethumbnail:    Force printing thumbnail URL.
111     forcedescription:  Force printing description.
112     forcefilename:     Force printing final filename.
113     forceduration:     Force printing duration.
114     forcejson:         Force printing info_dict as JSON.
115     dump_single_json:  Force printing the info_dict of the whole playlist
116                        (or video) as a single JSON line.
117     simulate:          Do not download the video files.
118     format:            Video format code.
119     format_limit:      Highest quality format to try.
120     outtmpl:           Template for output names.
121     restrictfilenames: Do not allow "&" and spaces in file names
122     ignoreerrors:      Do not stop on download errors.
123     nooverwrites:      Prevent overwriting files.
124     playliststart:     Playlist item to start at.
125     playlistend:       Playlist item to end at.
126     matchtitle:        Download only matching titles.
127     rejecttitle:       Reject downloads for matching titles.
128     logger:            Log messages to a logging.Logger instance.
129     logtostderr:       Log messages to stderr instead of stdout.
130     writedescription:  Write the video description to a .description file
131     writeinfojson:     Write the video description to a .info.json file
132     writeannotations:  Write the video annotations to a .annotations.xml file
133     writethumbnail:    Write the thumbnail image to a file
134     writesubtitles:    Write the video subtitles to a file
135     writeautomaticsub: Write the automatic subtitles to a file
136     allsubtitles:      Downloads all the subtitles of the video
137                        (requires writesubtitles or writeautomaticsub)
138     listsubtitles:     Lists all available subtitles for the video
139     subtitlesformat:   Subtitle format [srt/sbv/vtt] (default=srt)
140     subtitleslangs:    List of languages of the subtitles to download
141     keepvideo:         Keep the video file after post-processing
142     daterange:         A DateRange object, download only if the upload_date is in the range.
143     skip_download:     Skip the actual download of the video file
144     cachedir:          Location of the cache files in the filesystem.
145                        False to disable filesystem cache.
146     noplaylist:        Download single video instead of a playlist if in doubt.
147     age_limit:         An integer representing the user's age in years.
148                        Unsuitable videos for the given age are skipped.
149     min_views:         An integer representing the minimum view count the video
150                        must have in order to not be skipped.
151                        Videos without view count information are always
152                        downloaded. None for no limit.
153     max_views:         An integer representing the maximum view count.
154                        Videos that are more popular than that are not
155                        downloaded.
156                        Videos without view count information are always
157                        downloaded. None for no limit.
158     download_archive:  File name of a file where all downloads are recorded.
159                        Videos already present in the file are not downloaded
160                        again.
161     cookiefile:        File name where cookies should be read from and dumped to.
162     nocheckcertificate:Do not verify SSL certificates
163     prefer_insecure:   Use HTTP instead of HTTPS to retrieve information.
164                        At the moment, this is only supported by YouTube.
165     proxy:             URL of the proxy server to use
166     socket_timeout:    Time to wait for unresponsive hosts, in seconds
167     bidi_workaround:   Work around buggy terminals without bidirectional text
168                        support, using fridibi
169     debug_printtraffic:Print out sent and received HTTP traffic
170     include_ads:       Download ads as well
171     default_search:    Prepend this string if an input url is not valid.
172                        'auto' for elaborate guessing
173     encoding:          Use this encoding instead of the system-specified.
174     extract_flat:      Do not resolve URLs, return the immediate result.
175                        Pass in 'in_playlist' to only show this behavior for
176                        playlist items.
177
178     The following parameters are not used by YoutubeDL itself, they are used by
179     the FileDownloader:
180     nopart, updatetime, buffersize, ratelimit, min_filesize, max_filesize, test,
181     noresizebuffer, retries, continuedl, noprogress, consoletitle
182
183     The following options are used by the post processors:
184     prefer_ffmpeg:     If True, use ffmpeg instead of avconv if both are available,
185                        otherwise prefer avconv.
186     exec_cmd:          Arbitrary command to run after downloading
187     """
188
189     params = None
190     _ies = []
191     _pps = []
192     _download_retcode = None
193     _num_downloads = None
194     _screen_file = None
195
196     def __init__(self, params=None, auto_init=True):
197         """Create a FileDownloader object with the given options."""
198         if params is None:
199             params = {}
200         self._ies = []
201         self._ies_instances = {}
202         self._pps = []
203         self._progress_hooks = []
204         self._download_retcode = 0
205         self._num_downloads = 0
206         self._screen_file = [sys.stdout, sys.stderr][params.get('logtostderr', False)]
207         self._err_file = sys.stderr
208         self.params = params
209         self.cache = Cache(self)
210
211         if params.get('bidi_workaround', False):
212             try:
213                 import pty
214                 master, slave = pty.openpty()
215                 width = get_term_width()
216                 if width is None:
217                     width_args = []
218                 else:
219                     width_args = ['-w', str(width)]
220                 sp_kwargs = dict(
221                     stdin=subprocess.PIPE,
222                     stdout=slave,
223                     stderr=self._err_file)
224                 try:
225                     self._output_process = subprocess.Popen(
226                         ['bidiv'] + width_args, **sp_kwargs
227                     )
228                 except OSError:
229                     self._output_process = subprocess.Popen(
230                         ['fribidi', '-c', 'UTF-8'] + width_args, **sp_kwargs)
231                 self._output_channel = os.fdopen(master, 'rb')
232             except OSError as ose:
233                 if ose.errno == 2:
234                     self.report_warning('Could not find fribidi executable, ignoring --bidi-workaround . Make sure that  fribidi  is an executable file in one of the directories in your $PATH.')
235                 else:
236                     raise
237
238         if (sys.version_info >= (3,) and sys.platform != 'win32' and
239                 sys.getfilesystemencoding() in ['ascii', 'ANSI_X3.4-1968']
240                 and not params.get('restrictfilenames', False)):
241             # On Python 3, the Unicode filesystem API will throw errors (#1474)
242             self.report_warning(
243                 'Assuming --restrict-filenames since file system encoding '
244                 'cannot encode all characters. '
245                 'Set the LC_ALL environment variable to fix this.')
246             self.params['restrictfilenames'] = True
247
248         if '%(stitle)s' in self.params.get('outtmpl', ''):
249             self.report_warning('%(stitle)s is deprecated. Use the %(title)s and the --restrict-filenames flag(which also secures %(uploader)s et al) instead.')
250
251         self._setup_opener()
252
253         if auto_init:
254             self.print_debug_header()
255             self.add_default_info_extractors()
256
257     def warn_if_short_id(self, argv):
258         # short YouTube ID starting with dash?
259         idxs = [
260             i for i, a in enumerate(argv)
261             if re.match(r'^-[0-9A-Za-z_-]{10}$', a)]
262         if idxs:
263             correct_argv = (
264                 ['youtube-dl'] +
265                 [a for i, a in enumerate(argv) if i not in idxs] +
266                 ['--'] + [argv[i] for i in idxs]
267             )
268             self.report_warning(
269                 'Long argument string detected. '
270                 'Use -- to separate parameters and URLs, like this:\n%s\n' %
271                 args_to_str(correct_argv))
272
273     def add_info_extractor(self, ie):
274         """Add an InfoExtractor object to the end of the list."""
275         self._ies.append(ie)
276         self._ies_instances[ie.ie_key()] = ie
277         ie.set_downloader(self)
278
279     def get_info_extractor(self, ie_key):
280         """
281         Get an instance of an IE with name ie_key, it will try to get one from
282         the _ies list, if there's no instance it will create a new one and add
283         it to the extractor list.
284         """
285         ie = self._ies_instances.get(ie_key)
286         if ie is None:
287             ie = get_info_extractor(ie_key)()
288             self.add_info_extractor(ie)
289         return ie
290
291     def add_default_info_extractors(self):
292         """
293         Add the InfoExtractors returned by gen_extractors to the end of the list
294         """
295         for ie in gen_extractors():
296             self.add_info_extractor(ie)
297
298     def add_post_processor(self, pp):
299         """Add a PostProcessor object to the end of the chain."""
300         self._pps.append(pp)
301         pp.set_downloader(self)
302
303     def add_progress_hook(self, ph):
304         """Add the progress hook (currently only for the file downloader)"""
305         self._progress_hooks.append(ph)
306
307     def _bidi_workaround(self, message):
308         if not hasattr(self, '_output_channel'):
309             return message
310
311         assert hasattr(self, '_output_process')
312         assert isinstance(message, compat_str)
313         line_count = message.count('\n') + 1
314         self._output_process.stdin.write((message + '\n').encode('utf-8'))
315         self._output_process.stdin.flush()
316         res = ''.join(self._output_channel.readline().decode('utf-8')
317                        for _ in range(line_count))
318         return res[:-len('\n')]
319
320     def to_screen(self, message, skip_eol=False):
321         """Print message to stdout if not in quiet mode."""
322         return self.to_stdout(message, skip_eol, check_quiet=True)
323
324     def _write_string(self, s, out=None):
325         write_string(s, out=out, encoding=self.params.get('encoding'))
326
327     def to_stdout(self, message, skip_eol=False, check_quiet=False):
328         """Print message to stdout if not in quiet mode."""
329         if self.params.get('logger'):
330             self.params['logger'].debug(message)
331         elif not check_quiet or not self.params.get('quiet', False):
332             message = self._bidi_workaround(message)
333             terminator = ['\n', ''][skip_eol]
334             output = message + terminator
335
336             self._write_string(output, self._screen_file)
337
338     def to_stderr(self, message):
339         """Print message to stderr."""
340         assert isinstance(message, compat_str)
341         if self.params.get('logger'):
342             self.params['logger'].error(message)
343         else:
344             message = self._bidi_workaround(message)
345             output = message + '\n'
346             self._write_string(output, self._err_file)
347
348     def to_console_title(self, message):
349         if not self.params.get('consoletitle', False):
350             return
351         if os.name == 'nt' and ctypes.windll.kernel32.GetConsoleWindow():
352             # c_wchar_p() might not be necessary if `message` is
353             # already of type unicode()
354             ctypes.windll.kernel32.SetConsoleTitleW(ctypes.c_wchar_p(message))
355         elif 'TERM' in os.environ:
356             self._write_string('\033]0;%s\007' % message, self._screen_file)
357
358     def save_console_title(self):
359         if not self.params.get('consoletitle', False):
360             return
361         if 'TERM' in os.environ:
362             # Save the title on stack
363             self._write_string('\033[22;0t', self._screen_file)
364
365     def restore_console_title(self):
366         if not self.params.get('consoletitle', False):
367             return
368         if 'TERM' in os.environ:
369             # Restore the title from stack
370             self._write_string('\033[23;0t', self._screen_file)
371
372     def __enter__(self):
373         self.save_console_title()
374         return self
375
376     def __exit__(self, *args):
377         self.restore_console_title()
378
379         if self.params.get('cookiefile') is not None:
380             self.cookiejar.save()
381
382     def trouble(self, message=None, tb=None):
383         """Determine action to take when a download problem appears.
384
385         Depending on if the downloader has been configured to ignore
386         download errors or not, this method may throw an exception or
387         not when errors are found, after printing the message.
388
389         tb, if given, is additional traceback information.
390         """
391         if message is not None:
392             self.to_stderr(message)
393         if self.params.get('verbose'):
394             if tb is None:
395                 if sys.exc_info()[0]:  # if .trouble has been called from an except block
396                     tb = ''
397                     if hasattr(sys.exc_info()[1], 'exc_info') and sys.exc_info()[1].exc_info[0]:
398                         tb += ''.join(traceback.format_exception(*sys.exc_info()[1].exc_info))
399                     tb += compat_str(traceback.format_exc())
400                 else:
401                     tb_data = traceback.format_list(traceback.extract_stack())
402                     tb = ''.join(tb_data)
403             self.to_stderr(tb)
404         if not self.params.get('ignoreerrors', False):
405             if sys.exc_info()[0] and hasattr(sys.exc_info()[1], 'exc_info') and sys.exc_info()[1].exc_info[0]:
406                 exc_info = sys.exc_info()[1].exc_info
407             else:
408                 exc_info = sys.exc_info()
409             raise DownloadError(message, exc_info)
410         self._download_retcode = 1
411
412     def report_warning(self, message):
413         '''
414         Print the message to stderr, it will be prefixed with 'WARNING:'
415         If stderr is a tty file the 'WARNING:' will be colored
416         '''
417         if self.params.get('logger') is not None:
418             self.params['logger'].warning(message)
419         else:
420             if self.params.get('no_warnings'):
421                 return
422             if self._err_file.isatty() and os.name != 'nt':
423                 _msg_header = '\033[0;33mWARNING:\033[0m'
424             else:
425                 _msg_header = 'WARNING:'
426             warning_message = '%s %s' % (_msg_header, message)
427             self.to_stderr(warning_message)
428
429     def report_error(self, message, tb=None):
430         '''
431         Do the same as trouble, but prefixes the message with 'ERROR:', colored
432         in red if stderr is a tty file.
433         '''
434         if self._err_file.isatty() and os.name != 'nt':
435             _msg_header = '\033[0;31mERROR:\033[0m'
436         else:
437             _msg_header = 'ERROR:'
438         error_message = '%s %s' % (_msg_header, message)
439         self.trouble(error_message, tb)
440
441     def report_file_already_downloaded(self, file_name):
442         """Report file has already been fully downloaded."""
443         try:
444             self.to_screen('[download] %s has already been downloaded' % file_name)
445         except UnicodeEncodeError:
446             self.to_screen('[download] The file has already been downloaded')
447
448     def prepare_filename(self, info_dict):
449         """Generate the output filename."""
450         try:
451             template_dict = dict(info_dict)
452
453             template_dict['epoch'] = int(time.time())
454             autonumber_size = self.params.get('autonumber_size')
455             if autonumber_size is None:
456                 autonumber_size = 5
457             autonumber_templ = '%0' + str(autonumber_size) + 'd'
458             template_dict['autonumber'] = autonumber_templ % self._num_downloads
459             if template_dict.get('playlist_index') is not None:
460                 template_dict['playlist_index'] = '%0*d' % (len(str(template_dict['n_entries'])), template_dict['playlist_index'])
461             if template_dict.get('resolution') is None:
462                 if template_dict.get('width') and template_dict.get('height'):
463                     template_dict['resolution'] = '%dx%d' % (template_dict['width'], template_dict['height'])
464                 elif template_dict.get('height'):
465                     template_dict['resolution'] = '%sp' % template_dict['height']
466                 elif template_dict.get('width'):
467                     template_dict['resolution'] = '?x%d' % template_dict['width']
468
469             sanitize = lambda k, v: sanitize_filename(
470                 compat_str(v),
471                 restricted=self.params.get('restrictfilenames'),
472                 is_id=(k == 'id'))
473             template_dict = dict((k, sanitize(k, v))
474                                  for k, v in template_dict.items()
475                                  if v is not None)
476             template_dict = collections.defaultdict(lambda: 'NA', template_dict)
477
478             outtmpl = self.params.get('outtmpl', DEFAULT_OUTTMPL)
479             tmpl = compat_expanduser(outtmpl)
480             filename = tmpl % template_dict
481             return filename
482         except ValueError as err:
483             self.report_error('Error in output template: ' + str(err) + ' (encoding: ' + repr(preferredencoding()) + ')')
484             return None
485
486     def _match_entry(self, info_dict):
487         """ Returns None iff the file should be downloaded """
488
489         video_title = info_dict.get('title', info_dict.get('id', 'video'))
490         if 'title' in info_dict:
491             # This can happen when we're just evaluating the playlist
492             title = info_dict['title']
493             matchtitle = self.params.get('matchtitle', False)
494             if matchtitle:
495                 if not re.search(matchtitle, title, re.IGNORECASE):
496                     return '"' + title + '" title did not match pattern "' + matchtitle + '"'
497             rejecttitle = self.params.get('rejecttitle', False)
498             if rejecttitle:
499                 if re.search(rejecttitle, title, re.IGNORECASE):
500                     return '"' + title + '" title matched reject pattern "' + rejecttitle + '"'
501         date = info_dict.get('upload_date', None)
502         if date is not None:
503             dateRange = self.params.get('daterange', DateRange())
504             if date not in dateRange:
505                 return '%s upload date is not in range %s' % (date_from_str(date).isoformat(), dateRange)
506         view_count = info_dict.get('view_count', None)
507         if view_count is not None:
508             min_views = self.params.get('min_views')
509             if min_views is not None and view_count < min_views:
510                 return 'Skipping %s, because it has not reached minimum view count (%d/%d)' % (video_title, view_count, min_views)
511             max_views = self.params.get('max_views')
512             if max_views is not None and view_count > max_views:
513                 return 'Skipping %s, because it has exceeded the maximum view count (%d/%d)' % (video_title, view_count, max_views)
514         age_limit = self.params.get('age_limit')
515         if age_limit is not None:
516             actual_age_limit = info_dict.get('age_limit')
517             if actual_age_limit is None:
518                 actual_age_limit = 0
519             if age_limit < actual_age_limit:
520                 return 'Skipping "' + title + '" because it is age restricted'
521         if self.in_download_archive(info_dict):
522             return '%s has already been recorded in archive' % video_title
523         return None
524
525     @staticmethod
526     def add_extra_info(info_dict, extra_info):
527         '''Set the keys from extra_info in info dict if they are missing'''
528         for key, value in extra_info.items():
529             info_dict.setdefault(key, value)
530
531     def extract_info(self, url, download=True, ie_key=None, extra_info={},
532                      process=True):
533         '''
534         Returns a list with a dictionary for each video we find.
535         If 'download', also downloads the videos.
536         extra_info is a dict containing the extra values to add to each result
537          '''
538
539         if ie_key:
540             ies = [self.get_info_extractor(ie_key)]
541         else:
542             ies = self._ies
543
544         for ie in ies:
545             if not ie.suitable(url):
546                 continue
547
548             if not ie.working():
549                 self.report_warning('The program functionality for this site has been marked as broken, '
550                                     'and will probably not work.')
551
552             try:
553                 ie_result = ie.extract(url)
554                 if ie_result is None:  # Finished already (backwards compatibility; listformats and friends should be moved here)
555                     break
556                 if isinstance(ie_result, list):
557                     # Backwards compatibility: old IE result format
558                     ie_result = {
559                         '_type': 'compat_list',
560                         'entries': ie_result,
561                     }
562                 self.add_default_extra_info(ie_result, ie, url)
563                 if process:
564                     return self.process_ie_result(ie_result, download, extra_info)
565                 else:
566                     return ie_result
567             except ExtractorError as de:  # An error we somewhat expected
568                 self.report_error(compat_str(de), de.format_traceback())
569                 break
570             except MaxDownloadsReached:
571                 raise
572             except Exception as e:
573                 if self.params.get('ignoreerrors', False):
574                     self.report_error(compat_str(e), tb=compat_str(traceback.format_exc()))
575                     break
576                 else:
577                     raise
578         else:
579             self.report_error('no suitable InfoExtractor for URL %s' % url)
580
581     def add_default_extra_info(self, ie_result, ie, url):
582         self.add_extra_info(ie_result, {
583             'extractor': ie.IE_NAME,
584             'webpage_url': url,
585             'webpage_url_basename': url_basename(url),
586             'extractor_key': ie.ie_key(),
587         })
588
589     def process_ie_result(self, ie_result, download=True, extra_info={}):
590         """
591         Take the result of the ie(may be modified) and resolve all unresolved
592         references (URLs, playlist items).
593
594         It will also download the videos if 'download'.
595         Returns the resolved ie_result.
596         """
597
598         result_type = ie_result.get('_type', 'video')
599
600         if result_type in ('url', 'url_transparent'):
601             extract_flat = self.params.get('extract_flat', False)
602             if ((extract_flat == 'in_playlist' and 'playlist' in extra_info) or
603                     extract_flat is True):
604                 if self.params.get('forcejson', False):
605                     self.to_stdout(json.dumps(ie_result))
606                 return ie_result
607
608         if result_type == 'video':
609             self.add_extra_info(ie_result, extra_info)
610             return self.process_video_result(ie_result, download=download)
611         elif result_type == 'url':
612             # We have to add extra_info to the results because it may be
613             # contained in a playlist
614             return self.extract_info(ie_result['url'],
615                                      download,
616                                      ie_key=ie_result.get('ie_key'),
617                                      extra_info=extra_info)
618         elif result_type == 'url_transparent':
619             # Use the information from the embedding page
620             info = self.extract_info(
621                 ie_result['url'], ie_key=ie_result.get('ie_key'),
622                 extra_info=extra_info, download=False, process=False)
623
624             def make_result(embedded_info):
625                 new_result = ie_result.copy()
626                 for f in ('_type', 'url', 'ext', 'player_url', 'formats',
627                           'entries', 'ie_key', 'duration',
628                           'subtitles', 'annotations', 'format',
629                           'thumbnail', 'thumbnails'):
630                     if f in new_result:
631                         del new_result[f]
632                     if f in embedded_info:
633                         new_result[f] = embedded_info[f]
634                 return new_result
635             new_result = make_result(info)
636
637             assert new_result.get('_type') != 'url_transparent'
638             if new_result.get('_type') == 'compat_list':
639                 new_result['entries'] = [
640                     make_result(e) for e in new_result['entries']]
641
642             return self.process_ie_result(
643                 new_result, download=download, extra_info=extra_info)
644         elif result_type == 'playlist' or result_type == 'multi_video':
645             # We process each entry in the playlist
646             playlist = ie_result.get('title', None) or ie_result.get('id', None)
647             self.to_screen('[download] Downloading playlist: %s' % playlist)
648
649             playlist_results = []
650
651             playliststart = self.params.get('playliststart', 1) - 1
652             playlistend = self.params.get('playlistend', None)
653             # For backwards compatibility, interpret -1 as whole list
654             if playlistend == -1:
655                 playlistend = None
656
657             if isinstance(ie_result['entries'], list):
658                 n_all_entries = len(ie_result['entries'])
659                 entries = ie_result['entries'][playliststart:playlistend]
660                 n_entries = len(entries)
661                 self.to_screen(
662                     "[%s] playlist %s: Collected %d video ids (downloading %d of them)" %
663                     (ie_result['extractor'], playlist, n_all_entries, n_entries))
664             else:
665                 assert isinstance(ie_result['entries'], PagedList)
666                 entries = ie_result['entries'].getslice(
667                     playliststart, playlistend)
668                 n_entries = len(entries)
669                 self.to_screen(
670                     "[%s] playlist %s: Downloading %d videos" %
671                     (ie_result['extractor'], playlist, n_entries))
672
673             for i, entry in enumerate(entries, 1):
674                 self.to_screen('[download] Downloading video #%s of %s' % (i, n_entries))
675                 extra = {
676                     'n_entries': n_entries,
677                     'playlist': playlist,
678                     'playlist_id': ie_result.get('id'),
679                     'playlist_title': ie_result.get('title'),
680                     'playlist_index': i + playliststart,
681                     'extractor': ie_result['extractor'],
682                     'webpage_url': ie_result['webpage_url'],
683                     'webpage_url_basename': url_basename(ie_result['webpage_url']),
684                     'extractor_key': ie_result['extractor_key'],
685                 }
686
687                 reason = self._match_entry(entry)
688                 if reason is not None:
689                     self.to_screen('[download] ' + reason)
690                     continue
691
692                 entry_result = self.process_ie_result(entry,
693                                                       download=download,
694                                                       extra_info=extra)
695                 playlist_results.append(entry_result)
696             ie_result['entries'] = playlist_results
697             return ie_result
698         elif result_type == 'compat_list':
699             self.report_warning(
700                 'Extractor %s returned a compat_list result. '
701                 'It needs to be updated.' % ie_result.get('extractor'))
702
703             def _fixup(r):
704                 self.add_extra_info(r,
705                     {
706                         'extractor': ie_result['extractor'],
707                         'webpage_url': ie_result['webpage_url'],
708                         'webpage_url_basename': url_basename(ie_result['webpage_url']),
709                         'extractor_key': ie_result['extractor_key'],
710                     })
711                 return r
712             ie_result['entries'] = [
713                 self.process_ie_result(_fixup(r), download, extra_info)
714                 for r in ie_result['entries']
715             ]
716             return ie_result
717         else:
718             raise Exception('Invalid result type: %s' % result_type)
719
720     def select_format(self, format_spec, available_formats):
721         if format_spec == 'best' or format_spec is None:
722             return available_formats[-1]
723         elif format_spec == 'worst':
724             return available_formats[0]
725         elif format_spec == 'bestaudio':
726             audio_formats = [
727                 f for f in available_formats
728                 if f.get('vcodec') == 'none']
729             if audio_formats:
730                 return audio_formats[-1]
731         elif format_spec == 'worstaudio':
732             audio_formats = [
733                 f for f in available_formats
734                 if f.get('vcodec') == 'none']
735             if audio_formats:
736                 return audio_formats[0]
737         elif format_spec == 'bestvideo':
738             video_formats = [
739                 f for f in available_formats
740                 if f.get('acodec') == 'none']
741             if video_formats:
742                 return video_formats[-1]
743         elif format_spec == 'worstvideo':
744             video_formats = [
745                 f for f in available_formats
746                 if f.get('acodec') == 'none']
747             if video_formats:
748                 return video_formats[0]
749         else:
750             extensions = ['mp4', 'flv', 'webm', '3gp', 'm4a']
751             if format_spec in extensions:
752                 filter_f = lambda f: f['ext'] == format_spec
753             else:
754                 filter_f = lambda f: f['format_id'] == format_spec
755             matches = list(filter(filter_f, available_formats))
756             if matches:
757                 return matches[-1]
758         return None
759
760     def process_video_result(self, info_dict, download=True):
761         assert info_dict.get('_type', 'video') == 'video'
762
763         if 'id' not in info_dict:
764             raise ExtractorError('Missing "id" field in extractor result')
765         if 'title' not in info_dict:
766             raise ExtractorError('Missing "title" field in extractor result')
767
768         if 'playlist' not in info_dict:
769             # It isn't part of a playlist
770             info_dict['playlist'] = None
771             info_dict['playlist_index'] = None
772
773         thumbnails = info_dict.get('thumbnails')
774         if thumbnails:
775             thumbnails.sort(key=lambda t: (
776                 t.get('width'), t.get('height'), t.get('url')))
777             for t in thumbnails:
778                 if 'width' in t and 'height' in t:
779                     t['resolution'] = '%dx%d' % (t['width'], t['height'])
780
781         if thumbnails and 'thumbnail' not in info_dict:
782             info_dict['thumbnail'] = thumbnails[-1]['url']
783
784         if 'display_id' not in info_dict and 'id' in info_dict:
785             info_dict['display_id'] = info_dict['id']
786
787         if info_dict.get('upload_date') is None and info_dict.get('timestamp') is not None:
788             upload_date = datetime.datetime.utcfromtimestamp(
789                 info_dict['timestamp'])
790             info_dict['upload_date'] = upload_date.strftime('%Y%m%d')
791
792         # This extractors handle format selection themselves
793         if info_dict['extractor'] in ['Youku']:
794             if download:
795                 self.process_info(info_dict)
796             return info_dict
797
798         # We now pick which formats have to be downloaded
799         if info_dict.get('formats') is None:
800             # There's only one format available
801             formats = [info_dict]
802         else:
803             formats = info_dict['formats']
804
805         if not formats:
806             raise ExtractorError('No video formats found!')
807
808         # We check that all the formats have the format and format_id fields
809         for i, format in enumerate(formats):
810             if 'url' not in format:
811                 raise ExtractorError('Missing "url" key in result (index %d)' % i)
812
813             if format.get('format_id') is None:
814                 format['format_id'] = compat_str(i)
815             if format.get('format') is None:
816                 format['format'] = '{id} - {res}{note}'.format(
817                     id=format['format_id'],
818                     res=self.format_resolution(format),
819                     note=' ({0})'.format(format['format_note']) if format.get('format_note') is not None else '',
820                 )
821             # Automatically determine file extension if missing
822             if 'ext' not in format:
823                 format['ext'] = determine_ext(format['url']).lower()
824
825         format_limit = self.params.get('format_limit', None)
826         if format_limit:
827             formats = list(takewhile_inclusive(
828                 lambda f: f['format_id'] != format_limit, formats
829             ))
830
831         # TODO Central sorting goes here
832
833         if formats[0] is not info_dict:
834             # only set the 'formats' fields if the original info_dict list them
835             # otherwise we end up with a circular reference, the first (and unique)
836             # element in the 'formats' field in info_dict is info_dict itself,
837             # wich can't be exported to json
838             info_dict['formats'] = formats
839         if self.params.get('listformats', None):
840             self.list_formats(info_dict)
841             return
842
843         req_format = self.params.get('format')
844         if req_format is None:
845             req_format = 'best'
846         formats_to_download = []
847         # The -1 is for supporting YoutubeIE
848         if req_format in ('-1', 'all'):
849             formats_to_download = formats
850         else:
851             for rfstr in req_format.split(','):
852                 # We can accept formats requested in the format: 34/5/best, we pick
853                 # the first that is available, starting from left
854                 req_formats = rfstr.split('/')
855                 for rf in req_formats:
856                     if re.match(r'.+?\+.+?', rf) is not None:
857                         # Two formats have been requested like '137+139'
858                         format_1, format_2 = rf.split('+')
859                         formats_info = (self.select_format(format_1, formats),
860                             self.select_format(format_2, formats))
861                         if all(formats_info):
862                             # The first format must contain the video and the
863                             # second the audio
864                             if formats_info[0].get('vcodec') == 'none':
865                                 self.report_error('The first format must '
866                                     'contain the video, try using '
867                                     '"-f %s+%s"' % (format_2, format_1))
868                                 return
869                             selected_format = {
870                                 'requested_formats': formats_info,
871                                 'format': rf,
872                                 'ext': formats_info[0]['ext'],
873                             }
874                         else:
875                             selected_format = None
876                     else:
877                         selected_format = self.select_format(rf, formats)
878                     if selected_format is not None:
879                         formats_to_download.append(selected_format)
880                         break
881         if not formats_to_download:
882             raise ExtractorError('requested format not available',
883                                  expected=True)
884
885         if download:
886             if len(formats_to_download) > 1:
887                 self.to_screen('[info] %s: downloading video in %s formats' % (info_dict['id'], len(formats_to_download)))
888             for format in formats_to_download:
889                 new_info = dict(info_dict)
890                 new_info.update(format)
891                 self.process_info(new_info)
892         # We update the info dict with the best quality format (backwards compatibility)
893         info_dict.update(formats_to_download[-1])
894         return info_dict
895
896     def process_info(self, info_dict):
897         """Process a single resolved IE result."""
898
899         assert info_dict.get('_type', 'video') == 'video'
900
901         max_downloads = self.params.get('max_downloads')
902         if max_downloads is not None:
903             if self._num_downloads >= int(max_downloads):
904                 raise MaxDownloadsReached()
905
906         info_dict['fulltitle'] = info_dict['title']
907         if len(info_dict['title']) > 200:
908             info_dict['title'] = info_dict['title'][:197] + '...'
909
910         # Keep for backwards compatibility
911         info_dict['stitle'] = info_dict['title']
912
913         if 'format' not in info_dict:
914             info_dict['format'] = info_dict['ext']
915
916         reason = self._match_entry(info_dict)
917         if reason is not None:
918             self.to_screen('[download] ' + reason)
919             return
920
921         self._num_downloads += 1
922
923         filename = self.prepare_filename(info_dict)
924
925         # Forced printings
926         if self.params.get('forcetitle', False):
927             self.to_stdout(info_dict['fulltitle'])
928         if self.params.get('forceid', False):
929             self.to_stdout(info_dict['id'])
930         if self.params.get('forceurl', False):
931             # For RTMP URLs, also include the playpath
932             self.to_stdout(info_dict['url'] + info_dict.get('play_path', ''))
933         if self.params.get('forcethumbnail', False) and info_dict.get('thumbnail') is not None:
934             self.to_stdout(info_dict['thumbnail'])
935         if self.params.get('forcedescription', False) and info_dict.get('description') is not None:
936             self.to_stdout(info_dict['description'])
937         if self.params.get('forcefilename', False) and filename is not None:
938             self.to_stdout(filename)
939         if self.params.get('forceduration', False) and info_dict.get('duration') is not None:
940             self.to_stdout(formatSeconds(info_dict['duration']))
941         if self.params.get('forceformat', False):
942             self.to_stdout(info_dict['format'])
943         if self.params.get('forcejson', False):
944             info_dict['_filename'] = filename
945             self.to_stdout(json.dumps(info_dict))
946         if self.params.get('dump_single_json', False):
947             info_dict['_filename'] = filename
948
949         # Do nothing else if in simulate mode
950         if self.params.get('simulate', False):
951             return
952
953         if filename is None:
954             return
955
956         try:
957             dn = os.path.dirname(encodeFilename(filename))
958             if dn and not os.path.exists(dn):
959                 os.makedirs(dn)
960         except (OSError, IOError) as err:
961             self.report_error('unable to create directory ' + compat_str(err))
962             return
963
964         if self.params.get('writedescription', False):
965             descfn = filename + '.description'
966             if self.params.get('nooverwrites', False) and os.path.exists(encodeFilename(descfn)):
967                 self.to_screen('[info] Video description is already present')
968             else:
969                 try:
970                     self.to_screen('[info] Writing video description to: ' + descfn)
971                     with io.open(encodeFilename(descfn), 'w', encoding='utf-8') as descfile:
972                         descfile.write(info_dict['description'])
973                 except (KeyError, TypeError):
974                     self.report_warning('There\'s no description to write.')
975                 except (OSError, IOError):
976                     self.report_error('Cannot write description file ' + descfn)
977                     return
978
979         if self.params.get('writeannotations', False):
980             annofn = filename + '.annotations.xml'
981             if self.params.get('nooverwrites', False) and os.path.exists(encodeFilename(annofn)):
982                 self.to_screen('[info] Video annotations are already present')
983             else:
984                 try:
985                     self.to_screen('[info] Writing video annotations to: ' + annofn)
986                     with io.open(encodeFilename(annofn), 'w', encoding='utf-8') as annofile:
987                         annofile.write(info_dict['annotations'])
988                 except (KeyError, TypeError):
989                     self.report_warning('There are no annotations to write.')
990                 except (OSError, IOError):
991                     self.report_error('Cannot write annotations file: ' + annofn)
992                     return
993
994         subtitles_are_requested = any([self.params.get('writesubtitles', False),
995                                        self.params.get('writeautomaticsub')])
996
997         if subtitles_are_requested and 'subtitles' in info_dict and info_dict['subtitles']:
998             # subtitles download errors are already managed as troubles in relevant IE
999             # that way it will silently go on when used with unsupporting IE
1000             subtitles = info_dict['subtitles']
1001             sub_format = self.params.get('subtitlesformat', 'srt')
1002             for sub_lang in subtitles.keys():
1003                 sub = subtitles[sub_lang]
1004                 if sub is None:
1005                     continue
1006                 try:
1007                     sub_filename = subtitles_filename(filename, sub_lang, sub_format)
1008                     if self.params.get('nooverwrites', False) and os.path.exists(encodeFilename(sub_filename)):
1009                         self.to_screen('[info] Video subtitle %s.%s is already_present' % (sub_lang, sub_format))
1010                     else:
1011                         self.to_screen('[info] Writing video subtitles to: ' + sub_filename)
1012                         with io.open(encodeFilename(sub_filename), 'w', encoding='utf-8') as subfile:
1013                             subfile.write(sub)
1014                 except (OSError, IOError):
1015                     self.report_error('Cannot write subtitles file ' + sub_filename)
1016                     return
1017
1018         if self.params.get('writeinfojson', False):
1019             infofn = os.path.splitext(filename)[0] + '.info.json'
1020             if self.params.get('nooverwrites', False) and os.path.exists(encodeFilename(infofn)):
1021                 self.to_screen('[info] Video description metadata is already present')
1022             else:
1023                 self.to_screen('[info] Writing video description metadata as JSON to: ' + infofn)
1024                 try:
1025                     write_json_file(info_dict, infofn)
1026                 except (OSError, IOError):
1027                     self.report_error('Cannot write metadata to JSON file ' + infofn)
1028                     return
1029
1030         if self.params.get('writethumbnail', False):
1031             if info_dict.get('thumbnail') is not None:
1032                 thumb_format = determine_ext(info_dict['thumbnail'], 'jpg')
1033                 thumb_filename = os.path.splitext(filename)[0] + '.' + thumb_format
1034                 if self.params.get('nooverwrites', False) and os.path.exists(encodeFilename(thumb_filename)):
1035                     self.to_screen('[%s] %s: Thumbnail is already present' %
1036                                    (info_dict['extractor'], info_dict['id']))
1037                 else:
1038                     self.to_screen('[%s] %s: Downloading thumbnail ...' %
1039                                    (info_dict['extractor'], info_dict['id']))
1040                     try:
1041                         uf = self.urlopen(info_dict['thumbnail'])
1042                         with open(thumb_filename, 'wb') as thumbf:
1043                             shutil.copyfileobj(uf, thumbf)
1044                         self.to_screen('[%s] %s: Writing thumbnail to: %s' %
1045                             (info_dict['extractor'], info_dict['id'], thumb_filename))
1046                     except (compat_urllib_error.URLError, compat_http_client.HTTPException, socket.error) as err:
1047                         self.report_warning('Unable to download thumbnail "%s": %s' %
1048                             (info_dict['thumbnail'], compat_str(err)))
1049
1050         if not self.params.get('skip_download', False):
1051             if self.params.get('nooverwrites', False) and os.path.exists(encodeFilename(filename)):
1052                 success = True
1053             else:
1054                 try:
1055                     def dl(name, info):
1056                         fd = get_suitable_downloader(info)(self, self.params)
1057                         for ph in self._progress_hooks:
1058                             fd.add_progress_hook(ph)
1059                         if self.params.get('verbose'):
1060                             self.to_stdout('[debug] Invoking downloader on %r' % info.get('url'))
1061                         return fd.download(name, info)
1062                     if info_dict.get('requested_formats') is not None:
1063                         downloaded = []
1064                         success = True
1065                         merger = FFmpegMergerPP(self, not self.params.get('keepvideo'))
1066                         if not merger._executable:
1067                             postprocessors = []
1068                             self.report_warning('You have requested multiple '
1069                                 'formats but ffmpeg or avconv are not installed.'
1070                                 ' The formats won\'t be merged')
1071                         else:
1072                             postprocessors = [merger]
1073                         for f in info_dict['requested_formats']:
1074                             new_info = dict(info_dict)
1075                             new_info.update(f)
1076                             fname = self.prepare_filename(new_info)
1077                             fname = prepend_extension(fname, 'f%s' % f['format_id'])
1078                             downloaded.append(fname)
1079                             partial_success = dl(fname, new_info)
1080                             success = success and partial_success
1081                         info_dict['__postprocessors'] = postprocessors
1082                         info_dict['__files_to_merge'] = downloaded
1083                     else:
1084                         # Just a single file
1085                         success = dl(filename, info_dict)
1086                 except (compat_urllib_error.URLError, compat_http_client.HTTPException, socket.error) as err:
1087                     self.report_error('unable to download video data: %s' % str(err))
1088                     return
1089                 except (OSError, IOError) as err:
1090                     raise UnavailableVideoError(err)
1091                 except (ContentTooShortError, ) as err:
1092                     self.report_error('content too short (expected %s bytes and served %s)' % (err.expected, err.downloaded))
1093                     return
1094
1095             if success:
1096                 try:
1097                     self.post_process(filename, info_dict)
1098                 except (PostProcessingError) as err:
1099                     self.report_error('postprocessing: %s' % str(err))
1100                     return
1101
1102         self.record_download_archive(info_dict)
1103
1104     def download(self, url_list):
1105         """Download a given list of URLs."""
1106         outtmpl = self.params.get('outtmpl', DEFAULT_OUTTMPL)
1107         if (len(url_list) > 1 and
1108                 '%' not in outtmpl
1109                 and self.params.get('max_downloads') != 1):
1110             raise SameFileError(outtmpl)
1111
1112         for url in url_list:
1113             try:
1114                 # It also downloads the videos
1115                 res = self.extract_info(url)
1116             except UnavailableVideoError:
1117                 self.report_error('unable to download video')
1118             except MaxDownloadsReached:
1119                 self.to_screen('[info] Maximum number of downloaded files reached.')
1120                 raise
1121             else:
1122                 if self.params.get('dump_single_json', False):
1123                     self.to_stdout(json.dumps(res))
1124
1125         return self._download_retcode
1126
1127     def download_with_info_file(self, info_filename):
1128         with io.open(info_filename, 'r', encoding='utf-8') as f:
1129             info = json.load(f)
1130         try:
1131             self.process_ie_result(info, download=True)
1132         except DownloadError:
1133             webpage_url = info.get('webpage_url')
1134             if webpage_url is not None:
1135                 self.report_warning('The info failed to download, trying with "%s"' % webpage_url)
1136                 return self.download([webpage_url])
1137             else:
1138                 raise
1139         return self._download_retcode
1140
1141     def post_process(self, filename, ie_info):
1142         """Run all the postprocessors on the given file."""
1143         info = dict(ie_info)
1144         info['filepath'] = filename
1145         keep_video = None
1146         pps_chain = []
1147         if ie_info.get('__postprocessors') is not None:
1148             pps_chain.extend(ie_info['__postprocessors'])
1149         pps_chain.extend(self._pps)
1150         for pp in pps_chain:
1151             try:
1152                 keep_video_wish, new_info = pp.run(info)
1153                 if keep_video_wish is not None:
1154                     if keep_video_wish:
1155                         keep_video = keep_video_wish
1156                     elif keep_video is None:
1157                         # No clear decision yet, let IE decide
1158                         keep_video = keep_video_wish
1159             except PostProcessingError as e:
1160                 self.report_error(e.msg)
1161         if keep_video is False and not self.params.get('keepvideo', False):
1162             try:
1163                 self.to_screen('Deleting original file %s (pass -k to keep)' % filename)
1164                 os.remove(encodeFilename(filename))
1165             except (IOError, OSError):
1166                 self.report_warning('Unable to remove downloaded video file')
1167
1168     def _make_archive_id(self, info_dict):
1169         # Future-proof against any change in case
1170         # and backwards compatibility with prior versions
1171         extractor = info_dict.get('extractor_key')
1172         if extractor is None:
1173             if 'id' in info_dict:
1174                 extractor = info_dict.get('ie_key')  # key in a playlist
1175         if extractor is None:
1176             return None  # Incomplete video information
1177         return extractor.lower() + ' ' + info_dict['id']
1178
1179     def in_download_archive(self, info_dict):
1180         fn = self.params.get('download_archive')
1181         if fn is None:
1182             return False
1183
1184         vid_id = self._make_archive_id(info_dict)
1185         if vid_id is None:
1186             return False  # Incomplete video information
1187
1188         try:
1189             with locked_file(fn, 'r', encoding='utf-8') as archive_file:
1190                 for line in archive_file:
1191                     if line.strip() == vid_id:
1192                         return True
1193         except IOError as ioe:
1194             if ioe.errno != errno.ENOENT:
1195                 raise
1196         return False
1197
1198     def record_download_archive(self, info_dict):
1199         fn = self.params.get('download_archive')
1200         if fn is None:
1201             return
1202         vid_id = self._make_archive_id(info_dict)
1203         assert vid_id
1204         with locked_file(fn, 'a', encoding='utf-8') as archive_file:
1205             archive_file.write(vid_id + '\n')
1206
1207     @staticmethod
1208     def format_resolution(format, default='unknown'):
1209         if format.get('vcodec') == 'none':
1210             return 'audio only'
1211         if format.get('resolution') is not None:
1212             return format['resolution']
1213         if format.get('height') is not None:
1214             if format.get('width') is not None:
1215                 res = '%sx%s' % (format['width'], format['height'])
1216             else:
1217                 res = '%sp' % format['height']
1218         elif format.get('width') is not None:
1219             res = '?x%d' % format['width']
1220         else:
1221             res = default
1222         return res
1223
1224     def _format_note(self, fdict):
1225         res = ''
1226         if fdict.get('ext') in ['f4f', 'f4m']:
1227             res += '(unsupported) '
1228         if fdict.get('format_note') is not None:
1229             res += fdict['format_note'] + ' '
1230         if fdict.get('tbr') is not None:
1231             res += '%4dk ' % fdict['tbr']
1232         if fdict.get('container') is not None:
1233             if res:
1234                 res += ', '
1235             res += '%s container' % fdict['container']
1236         if (fdict.get('vcodec') is not None and
1237                 fdict.get('vcodec') != 'none'):
1238             if res:
1239                 res += ', '
1240             res += fdict['vcodec']
1241             if fdict.get('vbr') is not None:
1242                 res += '@'
1243         elif fdict.get('vbr') is not None and fdict.get('abr') is not None:
1244             res += 'video@'
1245         if fdict.get('vbr') is not None:
1246             res += '%4dk' % fdict['vbr']
1247         if fdict.get('fps') is not None:
1248             res += ', %sfps' % fdict['fps']
1249         if fdict.get('acodec') is not None:
1250             if res:
1251                 res += ', '
1252             if fdict['acodec'] == 'none':
1253                 res += 'video only'
1254             else:
1255                 res += '%-5s' % fdict['acodec']
1256         elif fdict.get('abr') is not None:
1257             if res:
1258                 res += ', '
1259             res += 'audio'
1260         if fdict.get('abr') is not None:
1261             res += '@%3dk' % fdict['abr']
1262         if fdict.get('asr') is not None:
1263             res += ' (%5dHz)' % fdict['asr']
1264         if fdict.get('filesize') is not None:
1265             if res:
1266                 res += ', '
1267             res += format_bytes(fdict['filesize'])
1268         elif fdict.get('filesize_approx') is not None:
1269             if res:
1270                 res += ', '
1271             res += '~' + format_bytes(fdict['filesize_approx'])
1272         return res
1273
1274     def list_formats(self, info_dict):
1275         def line(format, idlen=20):
1276             return (('%-' + compat_str(idlen + 1) + 's%-10s%-12s%s') % (
1277                 format['format_id'],
1278                 format['ext'],
1279                 self.format_resolution(format),
1280                 self._format_note(format),
1281             ))
1282
1283         formats = info_dict.get('formats', [info_dict])
1284         idlen = max(len('format code'),
1285                     max(len(f['format_id']) for f in formats))
1286         formats_s = [line(f, idlen) for f in formats]
1287         if len(formats) > 1:
1288             formats_s[0] += (' ' if self._format_note(formats[0]) else '') + '(worst)'
1289             formats_s[-1] += (' ' if self._format_note(formats[-1]) else '') + '(best)'
1290
1291         header_line = line({
1292             'format_id': 'format code', 'ext': 'extension',
1293             'resolution': 'resolution', 'format_note': 'note'}, idlen=idlen)
1294         self.to_screen('[info] Available formats for %s:\n%s\n%s' %
1295                        (info_dict['id'], header_line, '\n'.join(formats_s)))
1296
1297     def urlopen(self, req):
1298         """ Start an HTTP download """
1299
1300         # According to RFC 3986, URLs can not contain non-ASCII characters, however this is not
1301         # always respected by websites, some tend to give out URLs with non percent-encoded
1302         # non-ASCII characters (see telemb.py, ard.py [#3412])
1303         # urllib chokes on URLs with non-ASCII characters (see http://bugs.python.org/issue3991)
1304         # To work around aforementioned issue we will replace request's original URL with
1305         # percent-encoded one
1306         req_is_string = isinstance(req, basestring if sys.version_info < (3, 0) else compat_str)
1307         url = req if req_is_string else req.get_full_url()
1308         url_escaped = escape_url(url)
1309
1310         # Substitute URL if any change after escaping
1311         if url != url_escaped:
1312             if req_is_string:
1313                 req = url_escaped
1314             else:
1315                 req = compat_urllib_request.Request(
1316                     url_escaped, data=req.data, headers=req.headers,
1317                     origin_req_host=req.origin_req_host, unverifiable=req.unverifiable)
1318
1319         return self._opener.open(req, timeout=self._socket_timeout)
1320
1321     def print_debug_header(self):
1322         if not self.params.get('verbose'):
1323             return
1324
1325         if type('') is not compat_str:
1326             # Python 2.6 on SLES11 SP1 (https://github.com/rg3/youtube-dl/issues/3326)
1327             self.report_warning(
1328                 'Your Python is broken! Update to a newer and supported version')
1329
1330         stdout_encoding = getattr(
1331             sys.stdout, 'encoding', 'missing (%s)' % type(sys.stdout).__name__)
1332         encoding_str = (
1333             '[debug] Encodings: locale %s, fs %s, out %s, pref %s\n' % (
1334                 locale.getpreferredencoding(),
1335                 sys.getfilesystemencoding(),
1336                 stdout_encoding,
1337                 self.get_encoding()))
1338         write_string(encoding_str, encoding=None)
1339
1340         self._write_string('[debug] youtube-dl version ' + __version__ + '\n')
1341         try:
1342             sp = subprocess.Popen(
1343                 ['git', 'rev-parse', '--short', 'HEAD'],
1344                 stdout=subprocess.PIPE, stderr=subprocess.PIPE,
1345                 cwd=os.path.dirname(os.path.abspath(__file__)))
1346             out, err = sp.communicate()
1347             out = out.decode().strip()
1348             if re.match('[0-9a-f]+', out):
1349                 self._write_string('[debug] Git HEAD: ' + out + '\n')
1350         except:
1351             try:
1352                 sys.exc_clear()
1353             except:
1354                 pass
1355         self._write_string('[debug] Python version %s - %s\n' % (
1356             platform.python_version(), platform_name()))
1357
1358         exe_versions = FFmpegPostProcessor.get_versions()
1359         exe_versions['rtmpdump'] = rtmpdump_version()
1360         exe_str = ', '.join(
1361             '%s %s' % (exe, v)
1362             for exe, v in sorted(exe_versions.items())
1363             if v
1364         )
1365         if not exe_str:
1366             exe_str = 'none'
1367         self._write_string('[debug] exe versions: %s\n' % exe_str)
1368
1369         proxy_map = {}
1370         for handler in self._opener.handlers:
1371             if hasattr(handler, 'proxies'):
1372                 proxy_map.update(handler.proxies)
1373         self._write_string('[debug] Proxy map: ' + compat_str(proxy_map) + '\n')
1374
1375     def _setup_opener(self):
1376         timeout_val = self.params.get('socket_timeout')
1377         self._socket_timeout = 600 if timeout_val is None else float(timeout_val)
1378
1379         opts_cookiefile = self.params.get('cookiefile')
1380         opts_proxy = self.params.get('proxy')
1381
1382         if opts_cookiefile is None:
1383             self.cookiejar = compat_cookiejar.CookieJar()
1384         else:
1385             self.cookiejar = compat_cookiejar.MozillaCookieJar(
1386                 opts_cookiefile)
1387             if os.access(opts_cookiefile, os.R_OK):
1388                 self.cookiejar.load()
1389
1390         cookie_processor = compat_urllib_request.HTTPCookieProcessor(
1391             self.cookiejar)
1392         if opts_proxy is not None:
1393             if opts_proxy == '':
1394                 proxies = {}
1395             else:
1396                 proxies = {'http': opts_proxy, 'https': opts_proxy}
1397         else:
1398             proxies = compat_urllib_request.getproxies()
1399             # Set HTTPS proxy to HTTP one if given (https://github.com/rg3/youtube-dl/issues/805)
1400             if 'http' in proxies and 'https' not in proxies:
1401                 proxies['https'] = proxies['http']
1402         proxy_handler = compat_urllib_request.ProxyHandler(proxies)
1403
1404         debuglevel = 1 if self.params.get('debug_printtraffic') else 0
1405         https_handler = make_HTTPS_handler(
1406             self.params.get('nocheckcertificate', False), debuglevel=debuglevel)
1407         ydlh = YoutubeDLHandler(debuglevel=debuglevel)
1408         opener = compat_urllib_request.build_opener(
1409             https_handler, proxy_handler, cookie_processor, ydlh)
1410         # Delete the default user-agent header, which would otherwise apply in
1411         # cases where our custom HTTP handler doesn't come into play
1412         # (See https://github.com/rg3/youtube-dl/issues/1309 for details)
1413         opener.addheaders = []
1414         self._opener = opener
1415
1416     def encode(self, s):
1417         if isinstance(s, bytes):
1418             return s  # Already encoded
1419
1420         try:
1421             return s.encode(self.get_encoding())
1422         except UnicodeEncodeError as err:
1423             err.reason = err.reason + '. Check your system encoding configuration or use the --encoding option.'
1424             raise
1425
1426     def get_encoding(self):
1427         encoding = self.params.get('encoding')
1428         if encoding is None:
1429             encoding = preferredencoding()
1430         return encoding