git.bitcoin.ninja Git - youtube-dl/blob - youtube_dl/extractor/polskieradio.py

   1 # coding: utf-8
   2 from __future__ import unicode_literals
   3
   4 from .common import InfoExtractor
   5 from ..utils import int_or_none
   6
   7 import calendar
   8 from datetime import datetime
   9
  10
  11 class PolskieRadioIE(InfoExtractor):
  12     _VALID_URL = r'https?://(?:www\.)?polskieradio\.pl/[0-9]+/[0-9]+/Artykul/(?P<id>[0-9]+),.+'
  13     _TESTS = [{
  14         'url': 'http://www.polskieradio.pl/7/5102/Artykul/1587943,Prof-Andrzej-Nowak-o-historii-nie-da-sie-myslec-beznamietnie',
  15         'md5': '2984ee6ce9046d91fc233bc1a864a09a',
  16         'info_dict': {
  17             'id': '1587943',
  18             'ext': 'mp3',
  19             'title': 'Prof. Andrzej Nowak: o historii nie da się myśleć beznamiętnie',
  20             'description': 'md5:12f954edbf3120c5e7075e17bf9fc5c5',
  21             'release_date': '20160227',
  22             'upload_date': '20160227',
  23             'timestamp': 1456594200,
  24             'duration': 2364
  25         }
  26     }, {
  27         'url': 'http://polskieradio.pl/9/305/Artykul/1632955,Bardzo-popularne-slowo-remis',
  28         'md5': '68a393e25b942c1a76872f56d303a31a',
  29         'info_dict': {
  30             'id': '1632955',
  31             'ext': 'mp3',
  32             'title': 'Bardzo popularne słowo: remis',
  33             'description': 'md5:3b58dfae614100abc0f175a0b26d5680',
  34             'release_date': '20160617',
  35             'upload_date': '20160617',
  36             'timestamp': 1466184900,
  37             'duration': 393
  38         }
  39     }]
  40
  41     def _real_extract(self, url):
  42         video_id = self._match_id(url)
  43         webpage = self._download_webpage(url, video_id)
  44         metadata_string = self._html_search_regex(r'<span class="play pr-media-play" data-media=(\{.+\})>', webpage, 'metadata')
  45         metadata = self._parse_json(metadata_string, video_id)
  46
  47         title = self._og_search_title(webpage)
  48         if title is not None:
  49             title = title.strip()
  50
  51         description = self._og_search_description(webpage)
  52         if description is not None:
  53             description = description.strip()
  54
  55         release_date = self._html_search_regex(r'Data emisji:[^0-9]+([0-9]{1,2}\.[0-9]{2}\.[0-9]{4})', webpage, 'release date', fatal=False)
  56         if release_date is not None:
  57             release_date = datetime.strptime(release_date, '%d.%m.%Y').strftime('%Y%m%d')
  58
  59         upload_datetime = self._html_search_regex(r'<span id="datetime2" class="time">\s+(.+)\s+</span>', webpage, 'release time', fatal=False)
  60         if upload_datetime is not None:
  61             timestamp = calendar.timegm(datetime.strptime(upload_datetime, '%d.%m.%Y %H:%M').timetuple())
  62         else:
  63             timestamp = None
  64
  65         return {
  66             'id': video_id,
  67             'title': title,
  68             'description': description,
  69             'display_id': metadata.get('id'),
  70             'duration': int_or_none(metadata.get('length')),
  71             'url': self._proto_relative_url(metadata.get('file'), 'http:'),
  72             'release_date': release_date,
  73             'timestamp': timestamp
  74         }