_ Git - youtube-dl/blob - youtube_dl/extractor/websurg.py

   1 # coding: utf-8
   2
   3 import re
   4
   5 from ..utils import (
   6     compat_urllib_request,
   7     compat_urllib_parse
   8 )
   9
  10 from .common import InfoExtractor
  11
  12 class WeBSurgIE(InfoExtractor):
  13     IE_NAME = u'websurg.com'
  14     _VALID_URL = r'http://.*?\.websurg\.com/MEDIA/\?noheader=1&doi=(.*)'
  15
  16     _TEST = {
  17         u'url': u'http://www.websurg.com/MEDIA/?noheader=1&doi=vd01en4012',
  18         u'file': u'vd01en4012.mp4',
  19         u'params': {
  20             u'skip_download': True,
  21         }
  22     }
  23
  24     _LOGIN_URL = 'http://www.websurg.com/inc/login/login_div.ajax.php?login=1'
  25
  26     def _real_extract(self, url):
  27
  28         login_form = {
  29             'username': self._downloader.params['username'],
  30             'password': self._downloader.params['password'],
  31             'Submit': 1
  32         }
  33
  34         request = compat_urllib_request.Request(
  35             self._LOGIN_URL, compat_urllib_parse.urlencode(login_form))
  36         request.add_header(
  37             'Content-Type', 'application/x-www-form-urlencoded;charset=utf-8')
  38         login_results = compat_urllib_request.urlopen(request).info()
  39
  40         sessid = re.match(r'PHPSESSID=(.*);',
  41             login_results['Set-Cookie']).group(1)
  42         request = compat_urllib_request.Request(
  43             url, compat_urllib_parse.urlencode(login_form),
  44             {'Cookie': 'PHPSESSID=' + sessid + ';'})
  45         webpage = compat_urllib_request.urlopen(request).read()
  46
  47         video_id = re.match(self._VALID_URL, url).group(1)
  48
  49         url_info = re.search(r'streamer="(.*?)" src="(.*?)"', webpage)
  50
  51         if url_info is None:
  52             self._downloader.report_warning(
  53                 u'Unable to log in: bad username/password')
  54             return
  55
  56         return {'id': video_id,
  57                 'title' : re.search(
  58                     r'property="og:title" content="(.*?)" />'
  59                     , webpage).group(1),
  60                 'description': re.search(
  61                     r'name="description" content="(.*?)" />', webpage).group(1),
  62                 'ext' : 'mp4',
  63                 'url' : url_info.group(1) + '/' + url_info.group(2),
  64                 'thumbnail': re.search(
  65                     r'property="og:image" content="(.*?)" />', webpage
  66                 ).group(1)
  67                 }