CoCalc -- facebook.py

GitHub Repository: mikf/gallery-dl
Path: blob/master/gallery_dl/extractor/facebook.py
⁵³⁹⁹ views
1
# -*- coding: utf-8 -*-
2

3
# This program is free software; you can redistribute it and/or modify
4
# it under the terms of the GNU General Public License version 2 as
5
# published by the Free Software Foundation.
6

7
"""Extractors for https://www.facebook.com/"""
8

9
from .common import Extractor, Message, Dispatch
10
from .. import text, util, exception
11
from ..cache import memcache
12

13
BASE_PATTERN = r"(?:https?://)?(?:[\w-]+\.)?facebook\.com"
14
USER_PATTERN = (BASE_PATTERN +
15
                r"/(?!media/|photo/|photo.php|watch/)"
16
                r"(?:profile\.php\?id=|people/[^/?#]+/)?([^/?&#]+)")
17

18

19
class FacebookExtractor(Extractor):
20
    """Base class for Facebook extractors"""
21
    category = "facebook"
22
    root = "https://www.facebook.com"
23
    directory_fmt = ("{category}", "{username}", "{title} ({set_id})")
24
    filename_fmt = "{id}.{extension}"
25
    archive_fmt = "{id}.{extension}"
26

27
    def _init(self):
28
        headers = self.session.headers
29
        headers["Accept"] = (
30
            "text/html,application/xhtml+xml,application/xml;q=0.9,"
31
            "image/avif,image/webp,image/png,image/svg+xml,*/*;q=0.8"
32
        )
33
        headers["Sec-Fetch-Dest"] = "empty"
34
        headers["Sec-Fetch-Mode"] = "navigate"
35
        headers["Sec-Fetch-Site"] = "same-origin"
36

37
        self.fallback_retries = self.config("fallback-retries", 2)
38
        self.videos = self.config("videos", True)
39
        self.author_followups = self.config("author-followups", False)
40

41
    def decode_all(self, txt):
42
        return text.unescape(
43
            txt.encode().decode("unicode_escape")
44
            .encode("utf_16", "surrogatepass").decode("utf_16")
45
        ).replace("\\/", "/")
46

47
    def parse_set_page(self, set_page):
48
        directory = {
49
            "set_id": text.extr(
50
                set_page, '"mediaSetToken":"', '"'
51
            ) or text.extr(
52
                set_page, '"mediasetToken":"', '"'
53
            ),
54
            "username": self.decode_all(
55
                text.extr(
56
                    set_page, '"user":{"__isProfile":"User","name":"', '","'
57
                ) or text.extr(
58
                    set_page, '"actors":[{"__typename":"User","name":"', '","'
59
                )
60
            ),
61
            "user_id": text.extr(
62
                set_page, '"owner":{"__typename":"User","id":"', '"'
63
            ),
64
            "user_pfbid": "",
65
            "title": self.decode_all(text.extr(
66
                set_page, '"title":{"text":"', '"'
67
            )),
68
            "first_photo_id": text.extr(
69
                set_page,
70
                '{"__typename":"Photo","__isMedia":"Photo","',
71
                '","creation_story"'
72
            ).rsplit('"id":"', 1)[-1] or
73
            text.extr(
74
                set_page, '{"__typename":"Photo","id":"', '"'
75
            )
76
        }
77

78
        if directory["user_id"].startswith("pfbid"):
79
            directory["user_pfbid"] = directory["user_id"]
80
            directory["user_id"] = (
81
                text.extr(
82
                    set_page, '"actors":[{"__typename":"User","id":"', '"') or
83
                text.extr(
84
                    set_page, '"userID":"', '"') or
85
                directory["set_id"].split(".")[1])
86

87
        return directory
88

89
    def parse_photo_page(self, photo_page):
90
        photo = {
91
            "id": text.extr(
92
                photo_page, '"__isNode":"Photo","id":"', '"'
93
            ),
94
            "set_id": text.extr(
95
                photo_page,
96
                '"url":"https:\\/\\/www.facebook.com\\/photo\\/?fbid=',
97
                '"'
98
            ).rsplit("&set=", 1)[-1],
99
            "username": self.decode_all(text.extr(
100
                photo_page, '"owner":{"__typename":"User","name":"', '"'
101
            )),
102
            "user_id": text.extr(
103
                photo_page, '"owner":{"__typename":"User","id":"', '"'
104
            ),
105
            "user_pfbid": "",
106
            "caption": self.decode_all(text.extr(
107
                photo_page,
108
                '"message":{"delight_ranges"',
109
                '"},"message_preferred_body"'
110
            ).rsplit('],"text":"', 1)[-1]),
111
            "date": text.parse_timestamp(
112
                text.extr(photo_page, '\\"publish_time\\":', ',') or
113
                text.extr(photo_page, '"created_time":', ',')
114
            ),
115
            "url": self.decode_all(text.extr(
116
                photo_page, ',"image":{"uri":"', '","'
117
            )),
118
            "next_photo_id": text.extr(
119
                photo_page,
120
                '"nextMediaAfterNodeId":{"__typename":"Photo","id":"',
121
                '"'
122
            ) or text.extr(
123
                photo_page,
124
                '"nextMedia":{"edges":[{"node":{"__typename":"Photo","id":"',
125
                '"'
126
            )
127
        }
128

129
        if photo["user_id"].startswith("pfbid"):
130
            photo["user_pfbid"] = photo["user_id"]
131
            photo["user_id"] = text.extr(
132
                photo_page, r'\"content_owner_id_new\":\"', r'\"')
133

134
        text.nameext_from_url(photo["url"], photo)
135

136
        photo["followups_ids"] = []
137
        for comment_raw in text.extract_iter(
138
            photo_page, '{"node":{"id"', '"cursor":null}'
139
        ):
140
            if ('"is_author_original_poster":true' in comment_raw and
141
                    '{"__typename":"Photo","id":"' in comment_raw):
142
                photo["followups_ids"].append(text.extr(
143
                    comment_raw,
144
                    '{"__typename":"Photo","id":"',
145
                    '"'
146
                ))
147

148
        return photo
149

150
    def parse_post_page(self, post_page):
151
        first_photo_url = text.extr(
152
            text.extr(
153
                post_page, '"__isMedia":"Photo"', '"target_group"'
154
            ), '"url":"', ','
155
        )
156

157
        post = {
158
            "set_id": text.extr(post_page, '{"mediaset_token":"', '"') or
159
            text.extr(first_photo_url, 'set=', '"').rsplit("&", 1)[0]
160
        }
161

162
        return post
163

164
    def parse_video_page(self, video_page):
165
        video = {
166
            "id": text.extr(
167
                video_page, '\\"video_id\\":\\"', '\\"'
168
            ),
169
            "username": self.decode_all(text.extr(
170
                video_page, '"actors":[{"__typename":"User","name":"', '","'
171
            )),
172
            "user_id": text.extr(
173
                video_page, '"owner":{"__typename":"User","id":"', '"'
174
            ),
175
            "date": text.parse_timestamp(text.extr(
176
                video_page, '\\"publish_time\\":', ','
177
            )),
178
            "type": "video"
179
        }
180

181
        if not video["username"]:
182
            video["username"] = self.decode_all(text.extr(
183
                video_page,
184
                '"__typename":"User","id":"' + video["user_id"] + '","name":"',
185
                '","'
186
            ))
187

188
        first_video_raw = text.extr(
189
            video_page, '"permalink_url"', '\\/Period>\\u003C\\/MPD>'
190
        )
191

192
        audio = {
193
            **video,
194
            "url": self.decode_all(text.extr(
195
                text.extr(
196
                    first_video_raw,
197
                    "AudioChannelConfiguration",
198
                    "BaseURL>\\u003C"
199
                ),
200
                "BaseURL>", "\\u003C\\/"
201
            )),
202
            "type": "audio"
203
        }
204

205
        video["urls"] = {}
206

207
        for raw_url in text.extract_iter(
208
            first_video_raw, 'FBQualityLabel=\\"', '\\u003C\\/BaseURL>'
209
        ):
210
            resolution = raw_url.split('\\"', 1)[0]
211
            video["urls"][resolution] = self.decode_all(
212
                raw_url.split('BaseURL>', 1)[1]
213
            )
214

215
        if not video["urls"]:
216
            return video, audio
217

218
        video["url"] = max(
219
            video["urls"].items(),
220
            key=lambda x: text.parse_int(x[0][:-1])
221
        )[1]
222

223
        text.nameext_from_url(video["url"], video)
224
        audio["filename"] = video["filename"]
225
        audio["extension"] = "m4a"
226

227
        return video, audio
228

229
    def photo_page_request_wrapper(self, url, **kwargs):
230
        LEFT_OFF_TXT = "" if url.endswith("&set=") else (
231
            "\nYou can use this URL to continue from "
232
            "where you left off (added \"&setextract\"): "
233
            "\n" + url + "&setextract"
234
        )
235

236
        res = self.request(url, **kwargs)
237

238
        if res.url.startswith(self.root + "/login"):
239
            raise exception.AuthRequired(
240
                message=(f"You must be logged in to continue viewing images."
241
                         f"{LEFT_OFF_TXT}")
242
            )
243

244
        if b'{"__dr":"CometErrorRoot.react"}' in res.content:
245
            raise exception.AbortExtraction(
246
                f"You've been temporarily blocked from viewing images.\n"
247
                f"Please try using a different account, "
248
                f"using a VPN or waiting before you retry.{LEFT_OFF_TXT}"
249
            )
250

251
        return res
252

253
    def extract_set(self, set_data):
254
        set_id = set_data["set_id"]
255
        all_photo_ids = [set_data["first_photo_id"]]
256

257
        retries = 0
258
        i = 0
259

260
        while i < len(all_photo_ids):
261
            photo_id = all_photo_ids[i]
262
            photo_url = f"{self.root}/photo/?fbid={photo_id}&set={set_id}"
263
            photo_page = self.photo_page_request_wrapper(photo_url).text
264

265
            photo = self.parse_photo_page(photo_page)
266
            photo["num"] = i + 1
267

268
            if self.author_followups:
269
                for followup_id in photo["followups_ids"]:
270
                    if followup_id not in all_photo_ids:
271
                        self.log.debug(
272
                            "Found a followup in comments: %s", followup_id
273
                        )
274
                        all_photo_ids.append(followup_id)
275

276
            if not photo["url"]:
277
                if retries < self.fallback_retries and self._interval_429:
278
                    seconds = self._interval_429()
279
                    self.log.warning(
280
                        "Failed to find photo download URL for %s. "
281
                        "Retrying in %s seconds.", photo_url, seconds,
282
                    )
283
                    self.wait(seconds=seconds, reason="429 Too Many Requests")
284
                    retries += 1
285
                    continue
286
                else:
287
                    self.log.error(
288
                        "Failed to find photo download URL for " + photo_url +
289
                        ". Skipping."
290
                    )
291
                    retries = 0
292
            else:
293
                retries = 0
294
                photo.update(set_data)
295
                yield Message.Directory, photo
296
                yield Message.Url, photo["url"], photo
297

298
            if not photo["next_photo_id"]:
299
                self.log.debug(
300
                    "Can't find next image in the set. "
301
                    "Extraction is over."
302
                )
303
            elif photo["next_photo_id"] in all_photo_ids:
304
                if photo["next_photo_id"] != photo["id"]:
305
                    self.log.debug(
306
                        "Detected a loop in the set, it's likely finished. "
307
                        "Extraction is over."
308
                    )
309
            else:
310
                all_photo_ids.append(photo["next_photo_id"])
311

312
            i += 1
313

314
    @memcache(keyarg=1)
315
    def _extract_profile(self, profile, set_id=False):
316
        if set_id:
317
            url = f"{self.root}/{profile}/photos_by"
318
        else:
319
            url = f"{self.root}/{profile}"
320
        return self._extract_profile_page(url)
321

322
    def _extract_profile_page(self, url):
323
        for _ in range(self.fallback_retries + 1):
324
            page = self.request(url).text
325

326
            if page.find('>Page Not Found</title>', 0, 3000) > 0:
327
                break
328
            if ('"props":{"title":"This content isn\'t available right now"' in
329
                    page):
330
                raise exception.AuthRequired(
331
                    "authenticated cookies", "profile",
332
                    "This content isn't available right now")
333

334
            set_id = self._extract_profile_set_id(page)
335
            user = self._extract_profile_user(page)
336
            if set_id or user:
337
                user["set_id"] = set_id
338
                return user
339

340
            self.log.debug("Got empty profile photos page, retrying...")
341
        return {}
342

343
    def _extract_profile_set_id(self, profile_photos_page):
344
        set_ids_raw = text.extr(
345
            profile_photos_page, '"pageItems"', '"page_info"'
346
        )
347

348
        set_id = text.extr(
349
            set_ids_raw, 'set=', '"'
350
        ).rsplit("&", 1)[0] or text.extr(
351
            set_ids_raw, '\\/photos\\/', '\\/'
352
        )
353

354
        return set_id
355

356
    def _extract_profile_user(self, page):
357
        data = text.extr(page, '","user":{"', '},"viewer":{')
358

359
        user = None
360
        try:
361
            user = util.json_loads(f'{{"{data}}}')
362
            if user["id"].startswith("pfbid"):
363
                user["user_pfbid"] = user["id"]
364
                user["id"] = text.extr(page, '"userID":"', '"')
365
            user["username"] = (text.extr(page, '"userVanity":"', '"') or
366
                                text.extr(page, '"vanity":"', '"'))
367
            user["profile_tabs"] = [
368
                edge["node"]
369
                for edge in (user["profile_tabs"]["profile_user"]
370
                             ["timeline_nav_app_sections"]["edges"])
371
            ]
372
        except Exception:
373
            if user is None:
374
                self.log.debug("Failed to extract user data: %s", data)
375
                user = {}
376
        return user
377

378

379
class FacebookSetExtractor(FacebookExtractor):
380
    """Base class for Facebook Set extractors"""
381
    subcategory = "set"
382
    pattern = (
383
        BASE_PATTERN +
384
        r"/(?:(?:media/set|photo)/?\?(?:[^&#]+&)*set=([^&#]+)"
385
        r"[^/?#]*(?<!&setextract)$"
386
        r"|([^/?#]+/posts/[^/?#]+)"
387
        r"|photo/\?(?:[^&#]+&)*fbid=([^/?&#]+)&set=([^/?&#]+)&setextract)"
388
    )
389
    example = "https://www.facebook.com/media/set/?set=SET_ID"
390

391
    def items(self):
392
        set_id = self.groups[0] or self.groups[3]
393
        if path := self.groups[1]:
394
            post_url = self.root + "/" + path
395
            post_page = self.request(post_url).text
396
            set_id = self.parse_post_page(post_page)["set_id"]
397

398
        set_url = f"{self.root}/media/set/?set={set_id}"
399
        set_page = self.request(set_url).text
400
        set_data = self.parse_set_page(set_page)
401
        if self.groups[2]:
402
            set_data["first_photo_id"] = self.groups[2]
403

404
        return self.extract_set(set_data)
405

406

407
class FacebookPhotoExtractor(FacebookExtractor):
408
    """Base class for Facebook Photo extractors"""
409
    subcategory = "photo"
410
    pattern = (BASE_PATTERN +
411
               r"/(?:[^/?#]+/photos/[^/?#]+/|photo(?:.php)?/?\?"
412
               r"(?:[^&#]+&)*fbid=)([^/?&#]+)[^/?#]*(?<!&setextract)$")
413
    example = "https://www.facebook.com/photo/?fbid=PHOTO_ID"
414

415
    def items(self):
416
        photo_id = self.groups[0]
417
        photo_url = f"{self.root}/photo/?fbid={photo_id}&set="
418
        photo_page = self.photo_page_request_wrapper(photo_url).text
419

420
        i = 1
421
        photo = self.parse_photo_page(photo_page)
422
        photo["num"] = i
423

424
        set_url = f"{self.root}/media/set/?set={photo['set_id']}"
425
        set_page = self.request(set_url).text
426

427
        directory = self.parse_set_page(set_page)
428

429
        yield Message.Directory, directory
430
        yield Message.Url, photo["url"], photo
431

432
        if self.author_followups:
433
            for comment_photo_id in photo["followups_ids"]:
434
                comment_photo = self.parse_photo_page(
435
                    self.photo_page_request_wrapper(
436
                        f"{self.root}/photo/?fbid={comment_photo_id}&set="
437
                    ).text
438
                )
439
                i += 1
440
                comment_photo["num"] = i
441
                yield Message.Url, comment_photo["url"], comment_photo
442

443

444
class FacebookVideoExtractor(FacebookExtractor):
445
    """Base class for Facebook Video extractors"""
446
    subcategory = "video"
447
    directory_fmt = ("{category}", "{username}", "{subcategory}")
448
    pattern = BASE_PATTERN + r"/(?:[^/?#]+/videos/|watch/?\?v=)([^/?&#]+)"
449
    example = "https://www.facebook.com/watch/?v=VIDEO_ID"
450

451
    def items(self):
452
        video_id = self.groups[0]
453
        video_url = self.root + "/watch/?v=" + video_id
454
        video_page = self.request(video_url).text
455

456
        video, audio = self.parse_video_page(video_page)
457

458
        if "url" not in video:
459
            return
460

461
        yield Message.Directory, video
462

463
        if self.videos == "ytdl":
464
            yield Message.Url, "ytdl:" + video_url, video
465
        elif self.videos:
466
            yield Message.Url, video["url"], video
467
            if audio["url"]:
468
                yield Message.Url, audio["url"], audio
469

470

471
class FacebookInfoExtractor(FacebookExtractor):
472
    """Extractor for Facebook Profile data"""
473
    subcategory = "info"
474
    directory_fmt = ("{category}", "{username}")
475
    pattern = USER_PATTERN + r"/info"
476
    example = "https://www.facebook.com/USERNAME/info"
477

478
    def items(self):
479
        user = self._extract_profile(self.groups[0])
480
        return iter(((Message.Directory, user),))
481

482

483
class FacebookAlbumsExtractor(FacebookExtractor):
484
    """Extractor for Facebook Profile albums"""
485
    subcategory = "albums"
486
    pattern = USER_PATTERN + r"/photos_albums(?:/([^/?#]+))?"
487
    example = "https://www.facebook.com/USERNAME/photos_albums"
488

489
    def items(self):
490
        profile, name = self.groups
491
        url = f"{self.root}/{profile}/photos_albums"
492
        page = self.request(url).text
493

494
        pos = page.find(
495
            '"TimelineAppCollectionAlbumsRenderer","collection":{"id":"')
496
        if pos < 0:
497
            return
498
        if name is not None:
499
            name = name.lower()
500

501
        items = text.extract(page, '},"pageItems":', '}}},', pos)[0]
502
        edges = util.json_loads(items + "}}")["edges"]
503

504
        # TODO: use /graphql API endpoint
505
        for edge in edges:
506
            node = edge["node"]
507
            album = node["node"]
508
            album["title"] = title = node["title"]["text"]
509
            if name is not None and name != title.lower():
510
                continue
511
            album["_extractor"] = FacebookSetExtractor
512
            album["thumbnail"] = (img := node["image"]) and img["uri"]
513
            yield Message.Queue, album["url"], album
514

515

516
class FacebookPhotosExtractor(FacebookExtractor):
517
    """Extractor for Facebook Profile Photos"""
518
    subcategory = "photos"
519
    pattern = USER_PATTERN + r"/photos(?:_by)?"
520
    example = "https://www.facebook.com/USERNAME/photos"
521

522
    def items(self):
523
        set_id = self._extract_profile(self.groups[0], True)["set_id"]
524
        if not set_id:
525
            return iter(())
526

527
        set_url = f"{self.root}/media/set/?set={set_id}"
528
        set_page = self.request(set_url).text
529
        set_data = self.parse_set_page(set_page)
530
        return self.extract_set(set_data)
531

532

533
class FacebookAvatarExtractor(FacebookExtractor):
534
    """Extractor for Facebook Profile Avatars"""
535
    subcategory = "avatar"
536
    pattern = USER_PATTERN + r"/avatar"
537
    example = "https://www.facebook.com/USERNAME/avatar"
538

539
    def items(self):
540
        user = self._extract_profile(self.groups[0])
541
        avatar_page_url = user["profilePhoto"]["url"]
542
        avatar_page = self.photo_page_request_wrapper(avatar_page_url).text
543

544
        avatar = self.parse_photo_page(avatar_page)
545
        avatar["count"] = avatar["num"] = 1
546
        avatar["type"] = "avatar"
547

548
        set_url = f"{self.root}/media/set/?set={avatar['set_id']}"
549
        set_page = self.request(set_url).text
550
        directory = self.parse_set_page(set_page)
551

552
        yield Message.Directory, directory
553
        yield Message.Url, avatar["url"], avatar
554

555

556
class FacebookUserExtractor(Dispatch, FacebookExtractor):
557
    """Extractor for Facebook Profiles"""
558
    pattern = USER_PATTERN + r"/?(?:$|\?|#)"
559
    example = "https://www.facebook.com/USERNAME"
560

561
    def items(self):
562
        base = f"{self.root}/{self.groups[0]}/"
563
        return self._dispatch_extractors((
564
            (FacebookInfoExtractor  , base + "info"),
565
            (FacebookAvatarExtractor, base + "avatar"),
566
            (FacebookPhotosExtractor, base + "photos"),
567
            (FacebookAlbumsExtractor, base + "photos_albums"),
568
        ), ("photos",))
569

570
Product

Resources

Company