fix FunnyOrDieIE, MyVideoIE, TEDIE

[youtube-dl] / youtube_dl / InfoExtractors.py
diff --git a/youtube_dl/InfoExtractors.py b/youtube_dl/InfoExtractors.py

index eb1f32480f685b3c8c7b8646f41d340ff67d4c1d..b3c3dbb4385bfd6f612c30f5aab8c183edf13738 100755 (executable)
--- a/youtube_dl/InfoExtractors.py
+++ b/youtube_dl/InfoExtractors.py
@@ -2305,7 +2305,7 @@ class MyVideoIE(InfoExtractor):
          webpage = self._download_webpage(webpage_url, video_id)
  
          self.report_extraction(video_id)
-        mobj = re.search(r'<link rel=\'image_src\' href=\'(http://is[0-9].myvideo\.de/de/movie[0-9]+/[a-f0-9]+)/thumbs/.*?\.jpg\' />',
+        mobj = re.search(r'<link rel=\'image_src\' href=\'(http://is[0-9].myvideo\.de/de/movie[0-9]+/[a-f0-9]+)/thumbs/.*?\.jpg\'',
                   webpage)
          if mobj is None:
              self._downloader.report_error(u'unable to extract media URL')
@@ -3604,10 +3604,10 @@ class FunnyOrDieIE(InfoExtractor):
              self._downloader.report_error(u'unable to find video information')
          video_url = unescapeHTML(m.group('url'))
  
-        m = re.search(r"class='player_page_h1'>\s+<a.*?>(?P<title>.*?)</a>", webpage)
+        m = re.search(r"<h1 class='player_page_h1'.*?>(?P<title>.*?)</h1>", webpage, flags=re.DOTALL)
          if not m:
              self._downloader.trouble(u'Cannot find video title')
-        title = unescapeHTML(m.group('title'))
+        title = clean_html(m.group('title'))
  
          m = re.search(r'<meta property="og:description" content="(?P<desc>.*?)"', webpage)
          if m:
@@ -4051,7 +4051,7 @@ class TEDIE(InfoExtractor):
          videoName=m.group('name')
          webpage=self._download_webpage(url, video_id, 'Downloading \"%s\" page' % videoName)
          # If the url includes the language we get the title translated
-        title_RE=r'<h1><span id="altHeadline" >(?P<title>.*)</span></h1>'
+        title_RE=r'<span id="altHeadline" >(?P<title>.*)</span>'
          title=re.search(title_RE, webpage).group('title')
          info_RE=r'''<script\ type="text/javascript">var\ talkDetails\ =(.*?)
                          "id":(?P<videoID>[\d]+).*?
@@ -4128,7 +4128,7 @@ class MySpassIE(InfoExtractor):
          return [info]
  
  class SpiegelIE(InfoExtractor):
-    _VALID_URL = r'https?://(?:www\.)?spiegel\.de/video/[^/]*-(?P<videoID>[0-9]+)(?:\.html)?(?:#.*)$'
+    _VALID_URL = r'https?://(?:www\.)?spiegel\.de/video/[^/]*-(?P<videoID>[0-9]+)(?:\.html)?(?:#.*)?$'
  
      def _real_extract(self, url):
          m = re.match(self._VALID_URL, url)
@@ -4160,9 +4160,9 @@ class SpiegelIE(InfoExtractor):
          }
          return [info]
  
-class liveleakIE(InfoExtractor):
+class LiveLeakIE(InfoExtractor):
  
-    _VALID_URL = r'^(?:http?://)?(?:\w+\.)?liveleak\.com/view\?(?:.*?)i=(?P<video_id>\d+)(?:.*)'
+    _VALID_URL = r'^(?:http?://)?(?:\w+\.)?liveleak\.com/view\?(?:.*?)i=(?P<video_id>[\w_]+)(?:.*)'
      IE_NAME = u'liveleak'
  
      def _real_extract(self, url):
@@ -4171,17 +4171,20 @@ class liveleakIE(InfoExtractor):
              self._downloader.trouble(u'ERROR: invalid URL: %s' % url)
              return
  
-        video_id = mobj.group(1)
-        if video_id.endswith('/index.html'):
-            video_id = video_id[:-len('/index.html')]
+        video_id = mobj.group('video_id')
  
          webpage = self._download_webpage(url, video_id)
  
-        video_url = u'http://edge.liveleak.com/80281E/u/u/ll2_player_files/mp55/player.swf?config=http://www.liveleak.com/player?a=config%26item_token=' + video_id
+        m = re.search(r'file: "(.*?)",', webpage)
+        if not m:
+            self._downloader.report_error(u'unable to find video url')
+            return
+        video_url = m.group(1)
+
          m = re.search(r'<meta property="og:title" content="(?P<title>.*?)"', webpage)
          if not m:
              self._downloader.trouble(u'Cannot find video title')
-        title = unescapeHTML(m.group('title'))
+        title = unescapeHTML(m.group('title')).replace('LiveLeak.com -', '').strip()
  
          m = re.search(r'<meta property="og:description" content="(?P<desc>.*?)"', webpage)
          if m:
@@ -4189,13 +4192,19 @@ class liveleakIE(InfoExtractor):
          else:
              desc = None
  
+        m = re.search(r'By:.*?(\w+)</a>', webpage)
+        if m:
+            uploader = clean_html(m.group(1))
+        else:
+            uploader = None
  
          info = {
              'id':  video_id,
              'url': video_url,
              'ext': 'mp4',
              'title': title,
-            'description': desc
+            'description': desc,
+            'uploader': uploader
          }
  
          return [info]
@@ -4250,6 +4259,6 @@ def gen_extractors():
          TEDIE(),
          MySpassIE(),
          SpiegelIE(),
-        liveleakIE(),
+        LiveLeakIE(),
          GenericIE()
      ]