_ Git - youtube-dl/blob - youtube_dl/extractor/youku.py

   1 import json
   2 import math
   3 import random
   4 import re
   5 import time
   6
   7 from .common import InfoExtractor
   8 from ..utils import (
   9     ExtractorError,
  10 )
  11
  12
  13 class YoukuIE(InfoExtractor):
  14     _VALID_URL =  r'(?:http://)?v\.youku\.com/v_show/id_(?P<ID>[A-Za-z0-9]+)\.html'
  15     _TEST =   {
  16         u"url": u"http://v.youku.com/v_show/id_XNDgyMDQ2NTQw.html",
  17         u"file": u"XNDgyMDQ2NTQw_part00.flv",
  18         u"md5": u"ffe3f2e435663dc2d1eea34faeff5b5b",
  19         u"params": { u"test": false },
  20         u"info_dict": {
  21             u"title": u"youtube-dl test video \"'/\\ä↭𝕐"
  22         }
  23     }
  24
  25
  26     def _gen_sid(self):
  27         nowTime = int(time.time() * 1000)
  28         random1 = random.randint(1000,1998)
  29         random2 = random.randint(1000,9999)
  30
  31         return "%d%d%d" %(nowTime,random1,random2)
  32
  33     def _get_file_ID_mix_string(self, seed):
  34         mixed = []
  35         source = list("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ/\:._-1234567890")
  36         seed = float(seed)
  37         for i in range(len(source)):
  38             seed  =  (seed * 211 + 30031 ) % 65536
  39             index  =  math.floor(seed / 65536 * len(source) )
  40             mixed.append(source[int(index)])
  41             source.remove(source[int(index)])
  42         #return ''.join(mixed)
  43         return mixed
  44
  45     def _get_file_id(self, fileId, seed):
  46         mixed = self._get_file_ID_mix_string(seed)
  47         ids = fileId.split('*')
  48         realId = []
  49         for ch in ids:
  50             if ch:
  51                 realId.append(mixed[int(ch)])
  52         return ''.join(realId)
  53
  54     def _real_extract(self, url):
  55         mobj = re.match(self._VALID_URL, url)
  56         if mobj is None:
  57             raise ExtractorError(u'Invalid URL: %s' % url)
  58         video_id = mobj.group('ID')
  59
  60         info_url = 'http://v.youku.com/player/getPlayList/VideoIDS/' + video_id
  61
  62         jsondata = self._download_webpage(info_url, video_id)
  63
  64         self.report_extraction(video_id)
  65         try:
  66             config = json.loads(jsondata)
  67
  68             video_title =  config['data'][0]['title']
  69             seed = config['data'][0]['seed']
  70
  71             format = self._downloader.params.get('format', None)
  72             supported_format = list(config['data'][0]['streamfileids'].keys())
  73
  74             if format is None or format == 'best':
  75                 if 'hd2' in supported_format:
  76                     format = 'hd2'
  77                 else:
  78                     format = 'flv'
  79                 ext = u'flv'
  80             elif format == 'worst':
  81                 format = 'mp4'
  82                 ext = u'mp4'
  83             else:
  84                 format = 'flv'
  85                 ext = u'flv'
  86
  87
  88             fileid = config['data'][0]['streamfileids'][format]
  89             keys = [s['k'] for s in config['data'][0]['segs'][format]]
  90         except (UnicodeDecodeError, ValueError, KeyError):
  91             raise ExtractorError(u'Unable to extract info section')
  92
  93         files_info=[]
  94         sid = self._gen_sid()
  95         fileid = self._get_file_id(fileid, seed)
  96
  97         #column 8,9 of fileid represent the segment number
  98         #fileid[7:9] should be changed
  99         for index, key in enumerate(keys):
 100
 101             temp_fileid = '%s%02X%s' % (fileid[0:8], index, fileid[10:])
 102             download_url = 'http://f.youku.com/player/getFlvPath/sid/%s_%02X/st/flv/fileid/%s?k=%s' % (sid, index, temp_fileid, key)
 103
 104             info = {
 105                 'id': '%s_part%02d' % (video_id, index),
 106                 'url': download_url,
 107                 'uploader': None,
 108                 'upload_date': None,
 109                 'title': video_title,
 110                 'ext': ext,
 111             }
 112             files_info.append(info)
 113
 114         return files_info