import: Use pub_date to sort message ids.

When we create new ids for message rows, we now sort the new ids by their corresponding pub_date values in the rows. This takes a sizable chunk of memory. This feature only gets turned on if you set sort_by_date to True in realm.json.
2025-11-09 08:26:11 +00:00 · 2018-10-16 10:34:47 +00:00
parent d1ff903534
commit bd9e4ef0c8
5 changed files with 126 additions and 4 deletions
--- a/zerver/data_import/hipchat.py
+++ b/zerver/data_import/hipchat.py
@@ -679,6 +679,8 @@ def do_convert_data(input_tar_file: str, output_dir: str) -> None:
    # we process everything else, since we may introduce
    # mirror users when processing messages.
    realm['zerver_userprofile'] = user_handler.get_all_users()
+    realm['sort_by_date'] = True
+
    create_converted_data_files(realm, output_dir, '/realm.json')

    logging.info('Start importing avatar data')
--- a/zerver/lib/import_realm.py
+++ b/zerver/lib/import_realm.py
@@ -655,6 +655,8 @@ def do_import_realm(import_dir: Path, subdomain: str) -> Realm:
    with open(realm_data_filename) as f:
        data = ujson.load(f)

+    sort_by_date = data.get('sort_by_date', False)
+
    bulk_import_client(data, Client, 'zerver_client')

    # We don't import the Stream model yet, since it depends on Realm,
@@ -714,7 +716,7 @@ def do_import_realm(import_dir: Path, subdomain: str) -> Realm:
    data['zerver_userprofile'].sort(key=lambda r: r['id'])

    # To remap foreign key for UserProfile.last_active_message_id
-    update_message_foreign_keys(import_dir)
+    update_message_foreign_keys(import_dir=import_dir, sort_by_date=sort_by_date)

    fix_datetime_fields(data, 'zerver_userprofile')
    update_model_ids(UserProfile, data, 'user_profile')
@@ -915,7 +917,45 @@ def create_users(realm: Realm, name_list: Iterable[Tuple[str, str]],
            user_set.add((email, full_name, short_name, True))
    bulk_create_users(realm, user_set, bot_type)

-def update_message_foreign_keys(import_dir: Path) -> None:
+def update_message_foreign_keys(import_dir: Path,
+                                sort_by_date: bool) -> None:
+    old_id_list = get_incoming_message_ids(
+        import_dir=import_dir,
+        sort_by_date=sort_by_date,
+    )
+
+    count = len(old_id_list)
+
+    new_id_list = allocate_ids(model_class=Message, count=count)
+
+    for old_id, new_id in zip(old_id_list, new_id_list):
+        update_id_map(
+            table='message',
+            old_id=old_id,
+            new_id=new_id,
+        )
+
+    # We don't touch user_message keys here; that happens later when
+    # we're actually read the files a second time to get actual data.
+
+def get_incoming_message_ids(import_dir: Path,
+                             sort_by_date: bool) -> List[int]:
+    '''
+    This function reads in our entire collection of message
+    ids, which can be millions of integers for some installations.
+    And then we sort the list.  This is necessary to ensure
+    that the sort order of incoming ids matches the sort order
+    of pub_date, which isn't always guaranteed by our
+    utilities that convert third party chat data.  We also
+    need to move our ids to a new range if we're dealing
+    with a server that has data for other realms.
+    '''
+
+    if sort_by_date:
+        tups = list()  # type: List[Tuple[int, int]]
+    else:
+        message_ids = []  # type: List[int]
+
    dump_file_id = 1
    while True:
        message_filename = os.path.join(import_dir, "messages-%06d.json" % (dump_file_id,))
@@ -925,9 +965,37 @@ def update_message_foreign_keys(import_dir: Path) -> None:
        with open(message_filename) as f:
            data = ujson.load(f)

-        update_model_ids(Message, data, 'message')
+        # Aggressively free up memory.
+        del data['zerver_usermessage']
+
+        for row in data['zerver_message']:
+            # We truncate pub_date to int to theoretically
+            # save memory and speed up the sort.  For
+            # Zulip-to-Zulip imports, the
+            # message_id will generally be a good tiebreaker.
+            # If we occasionally mis-order the ids for two
+            # messages from the same second, it's not the
+            # end of the world, as it's likely those messages
+            # arrived to the original server in somewhat
+            # arbitrary order.
+
+            message_id = row['id']
+
+            if sort_by_date:
+                pub_date = int(row['pub_date'])
+                tup = (pub_date, message_id)
+                tups.append(tup)
+            else:
+                message_ids.append(message_id)
+
        dump_file_id += 1

+    if sort_by_date:
+        tups.sort()
+        message_ids = [tup[1] for tup in tups]
+
+    return message_ids
+
 def import_message_data(import_dir: Path) -> None:
    dump_file_id = 1
    while True:
@@ -946,7 +1014,18 @@ def import_message_data(import_dir: Path) -> None:
        # Parser to update message content with the updated attachment urls
        fix_upload_links(data, 'zerver_message')

-        re_map_foreign_keys(data, 'zerver_message', 'id', related_table='message', id_field=True)
+        # We already create mappings for zerver_message ids
+        # in update_message_foreign_keys(), so here we simply
+        # apply them.
+        message_id_map = id_maps['message']
+        for row in data['zerver_message']:
+            row['id'] = message_id_map[row['id']]
+
+        for row in data['zerver_usermessage']:
+            assert(row['message'] in message_id_map)
+
+        # A LOT HAPPENS HERE.
+        # This is where we actually import the message data.
        bulk_import_model(data, Message)

        fix_message_rendered_content(data, 'zerver_message')
--- a/zerver/tests/fixtures/import_fixtures/messages-000001.json
+++ b/zerver/tests/fixtures/import_fixtures/messages-000001.json
@@ -0,0 +1,14 @@
+{
+    "zerver_message":[
+        {
+            "pub_date":1409000103,
+            "id":555
+        },
+        {
+            "pub_date":1409000101,
+            "id":888
+        }
+    ],
+    "zerver_usermessage":[
+    ]
+}
--- a/zerver/tests/fixtures/import_fixtures/messages-000002.json
+++ b/zerver/tests/fixtures/import_fixtures/messages-000002.json
@@ -0,0 +1,10 @@
+{
+    "zerver_message":[
+        {
+            "pub_date":1409000102,
+            "id":999
+        }
+    ],
+    "zerver_usermessage":[
+    ]
+}
--- a/zerver/tests/test_import_export.py
+++ b/zerver/tests/test_import_export.py
@@ -21,6 +21,7 @@ from zerver.lib.export import (
 )
 from zerver.lib.import_realm import (
    do_import_realm,
+    get_incoming_message_ids,
 )
 from zerver.lib.avatar_hash import (
    user_avatar_path,
@@ -805,6 +806,22 @@ class ImportExportTest(ZulipTestCase):
        image_data = original_image_key.get_contents_as_string()
        self.assertEqual(image_data, test_image_data)

+    def test_get_incoming_message_ids(self) -> None:
+        import_dir = os.path.join(settings.DEPLOY_ROOT, "zerver", "tests", "fixtures", "import_fixtures")
+        message_ids = get_incoming_message_ids(
+            import_dir=import_dir,
+            sort_by_date=True,
+        )
+
+        self.assertEqual(message_ids, [888, 999, 555])
+
+        message_ids = get_incoming_message_ids(
+            import_dir=import_dir,
+            sort_by_date=False,
+        )
+
+        self.assertEqual(message_ids, [555, 888, 999])
+
    def test_plan_type(self) -> None:
        realm = get_realm('zulip')
        realm.plan_type = Realm.PREMIUM