Merge branch 'dataset-nfts' of github.com:bugout-dev/moonstream into dataset-nfts

2021-10-11 16:40:32 +02:00 · 2021-10-11 16:40:32 +02:00 · 73513fcefe
commit 73513fcefe
--- a/datasets/nfts/nfts/dataset.py
+++ b/datasets/nfts/nfts/dataset.py
@ -2,10 +2,12 @@
 Functions to access various data in the NFTs dataset.
 """
 import sqlite3
-from typing import Any, List, Tuple
+from typing import List, Optional, Tuple

+import numpy as np
 import pandas as pd
 import scipy.sparse
+from tqdm import tqdm

 from .datastore import event_tables, EventType

@ -124,7 +126,7 @@ This dataset consists of the following dataframes:"""
        print(explanation)
        print("- - -")

-    for name, explanation in AVAILABLE_MATRICES:
+    for name, explanation in AVAILABLE_MATRICES.items():
        print(f"\nMatrix: {name}")
        print("")
        print(explanation)
@ -137,6 +139,12 @@ class FromSQLite:
        Initialize an NFTs dataset instance by connecting it to a SQLite database containing the data.
        """
        self.conn = sqlite3.connect(datafile)
+        self.ownership_transitions: Optional[
+            Tuple[List[str], scipy.sparse.spmatrix]
+        ] = None
+        self.ownership_transition_probabilities: Optional[
+            Tuple[List[str], scipy.sparse.spmatrix]
+        ] = None

    def load_dataframe(self, name: str) -> pd.DataFrame:
        """
@ -150,13 +158,17 @@ class FromSQLite:
        df = pd.read_sql_query(f"SELECT * FROM {name};", self.conn)
        return df

-    def load_ownership_transitions(self) -> Tuple[List[str], Any]:
+    def load_ownership_transitions(
+        self, force: bool = False
+    ) -> Tuple[List[str], scipy.sparse.spmatrix]:
        """
        Loads ownership transitions adjacency matrix from SQLite database.

        To learn more about this matrix, run:
        >>> nfts.dataset.explain()
        """
+        if self.ownership_transitions is not None and not force:
+            return self.ownership_transitions
        cur = self.conn.cursor()
        address_indexes_query = """
 WITH all_addresses AS (
@ -173,9 +185,44 @@ SELECT DISTINCT(all_addresses.address) AS address FROM all_addresses ORDER BY ad
        adjacency_matrix = scipy.sparse.dok_matrix((num_addresses, num_addresses))
        adjacency_query = "SELECT from_address, to_address, num_transitions FROM ownership_transitions;"

-        for from_address, to_address, num_transitions in cur.execute(adjacency_query):
+        rows = cur.execute(adjacency_query)
+        for from_address, to_address, num_transitions in tqdm(
+            rows, desc="Ownership transitions (adjacency matrix)"
+        ):
            from_index = address_indexes[from_address]
            to_index = address_indexes[to_address]
            adjacency_matrix[from_index, to_index] = num_transitions

-        return addresses, adjacency_matrix
+        self.ownership_transitions = (addresses, adjacency_matrix)
+        return self.ownership_transitions
+
+    def load_ownership_transition_probabilities(
+        self,
+        force: bool = False,
+    ) -> Tuple[List[str], scipy.sparse.spmatrix]:
+        """
+        Returns transition probabilities of ownership transitions, with each entry A_{i,j} denoting the
+        probability that the address represented by row i transferred and NFT to the address represented by row[j].
+        """
+        if self.ownership_transition_probabilities is not None and not force:
+            return self.ownership_transition_probabilities
+
+        addresses, adjacency_matrix = self.load_ownership_transitions(force)
+
+        # Sum of the entries in each row:
+        # https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.spmatrix.sum.html#scipy.sparse.spmatrix.sum
+        row_sums = adjacency_matrix.sum(axis=1)
+
+        # Convert adjacency matrix to matrix of transition probabilities.
+        # We cannot do this by simply dividing transition_probabilites /= row_sums because that tries
+        # to coerce the matrix into a dense numpy ndarray and requires terabytes of memory.
+        transition_probabilities = adjacency_matrix.copy()
+        for i, j in zip(*transition_probabilities.nonzero()):
+            transition_probabilities[i, j] = (
+                transition_probabilities[i, j] / row_sums[i]
+            )
+
+        # Now we identify and remove burn addresses from this data.
+
+        self.ownership_transition_probabilities = (addresses, transition_probabilities)
+        return self.ownership_transition_probabilities
--- a/datasets/nfts/notebooks/.gitignore
+++ b/datasets/nfts/notebooks/.gitignore
@ -0,0 +1 @@
+img/
--- a/datasets/nfts/notebooks/nft_ownership.ipynb
+++ b/datasets/nfts/notebooks/nft_ownership.ipynb