_ Git - youtube-dl/blob - youtube_dl/extractor/teachertube.py

   1 # coding: utf-8
   2 from __future__ import unicode_literals
   3
   4 import re
   5
   6 from .common import InfoExtractor
   7 from ..utils import (
   8     qualities,
   9     determine_ext,
  10 )
  11
  12
  13 class TeacherTubeIE(InfoExtractor):
  14     IE_NAME = 'teachertube'
  15     IE_DESC = 'teachertube.com videos'
  16
  17     _VALID_URL = r'https?://(?:www\.)?teachertube\.com/(viewVideo\.php\?video_id=|music\.php\?music_id=|video/(?:[\da-z-]+-)?|audio/)(?P<id>\d+)'
  18
  19     _TESTS = [{
  20         # flowplayer
  21         'url': 'http://www.teachertube.com/viewVideo.php?video_id=339997',
  22         'md5': 'f9434ef992fd65936d72999951ee254c',
  23         'info_dict': {
  24             'id': '339997',
  25             'ext': 'mp4',
  26             'title': 'Measures of dispersion from a frequency table',
  27             'description': 'Measures of dispersion from a frequency table',
  28             'thumbnail': r're:https?://.*\.(?:jpg|png)',
  29         },
  30     }, {
  31         # jwplayer
  32         'url': 'http://www.teachertube.com/music.php?music_id=8805',
  33         'md5': '01e8352006c65757caf7b961f6050e21',
  34         'info_dict': {
  35             'id': '8805',
  36             'ext': 'mp3',
  37             'title': 'PER ASPERA AD ASTRA',
  38             'description': 'RADIJSKA EMISIJA ZRAKOPLOVNE TEHNI?KE ?KOLE P',
  39         },
  40     }, {
  41         # unavailable video
  42         'url': 'http://www.teachertube.com/video/intro-video-schleicher-297790',
  43         'only_matching': True,
  44     }]
  45
  46     def _real_extract(self, url):
  47         video_id = self._match_id(url)
  48         webpage = self._download_webpage(url, video_id)
  49
  50         title = self._html_search_meta('title', webpage, 'title', fatal=True)
  51         TITLE_SUFFIX = ' - TeacherTube'
  52         if title.endswith(TITLE_SUFFIX):
  53             title = title[:-len(TITLE_SUFFIX)].strip()
  54
  55         description = self._html_search_meta('description', webpage, 'description')
  56         if description:
  57             description = description.strip()
  58
  59         quality = qualities(['mp3', 'flv', 'mp4'])
  60
  61         media_urls = re.findall(r'data-contenturl="([^"]+)"', webpage)
  62         media_urls.extend(re.findall(r'var\s+filePath\s*=\s*"([^"]+)"', webpage))
  63         media_urls.extend(re.findall(r'\'file\'\s*:\s*["\']([^"\']+)["\'],', webpage))
  64
  65         formats = [
  66             {
  67                 'url': media_url,
  68                 'quality': quality(determine_ext(media_url))
  69             } for media_url in set(media_urls)
  70         ]
  71
  72         self._sort_formats(formats)
  73
  74         thumbnail = self._og_search_thumbnail(
  75             webpage, default=None) or self._html_search_meta(
  76             'thumbnail', webpage)
  77
  78         return {
  79             'id': video_id,
  80             'title': title,
  81             'description': description,
  82             'thumbnail': thumbnail,
  83             'formats': formats,
  84         }
  85
  86
  87 class TeacherTubeUserIE(InfoExtractor):
  88     IE_NAME = 'teachertube:user:collection'
  89     IE_DESC = 'teachertube.com user and collection videos'
  90
  91     _VALID_URL = r'https?://(?:www\.)?teachertube\.com/(user/profile|collection)/(?P<user>[0-9a-zA-Z]+)/?'
  92
  93     _MEDIA_RE = r'''(?sx)
  94         class="?sidebar_thumb_time"?>[0-9:]+</div>
  95         \s*
  96         <a\s+href="(https?://(?:www\.)?teachertube\.com/(?:video|audio)/[^"]+)"
  97     '''
  98     _TEST = {
  99         'url': 'http://www.teachertube.com/user/profile/rbhagwati2',
 100         'info_dict': {
 101             'id': 'rbhagwati2'
 102         },
 103         'playlist_mincount': 179,
 104     }
 105
 106     def _real_extract(self, url):
 107         mobj = re.match(self._VALID_URL, url)
 108         user_id = mobj.group('user')
 109
 110         urls = []
 111         webpage = self._download_webpage(url, user_id)
 112         urls.extend(re.findall(self._MEDIA_RE, webpage))
 113
 114         pages = re.findall(r'/ajax-user/user-videos/%s\?page=([0-9]+)' % user_id, webpage)[:-1]
 115         for p in pages:
 116             more = 'http://www.teachertube.com/ajax-user/user-videos/%s?page=%s' % (user_id, p)
 117             webpage = self._download_webpage(more, user_id, 'Downloading page %s/%s' % (p, len(pages)))
 118             video_urls = re.findall(self._MEDIA_RE, webpage)
 119             urls.extend(video_urls)
 120
 121         entries = [self.url_result(vurl, 'TeacherTube') for vurl in urls]
 122         return self.playlist_result(entries, user_id)