Effizient die neuen Ethereum Kaufen

Die Bitcoin-Blockchain mit Machine-Learning-Algorithmen analysieren, um Geldwäsc…

Der Blockchain-Analyst Elliptic hat ein Datenset mit 200.000 Transaktionen veröffentlicht und gemeinsam mit IBM und dem MIT Methoden getestet, um darin illegale Transaktionen zu erkennen. Das Ergebnis ist ein spannendes Paper, das zeigt, mit welchen Methoden man solche Daten analysieren kann – und an welche Grenzen man dabei stößt.

Die Blockchain-Analyse-Firma Elliptic hat einen Datensatz mit gut 200.000 Transaktionen für Forschungszwecke veröffentlicht.  Begleitend zur Veröffentlichung hat die Firma gemeinsam mit dem IT-Konzern IBM und der Technik-Uni MIT ein Paper geschrieben, in dem sie mehrere Methoden, diese Daten auszuwerten, erklären und vergleichen. Das Paper ist spannend, dringt tief in Machine-Learning und Graphenanalyse ein, bleibt dabei aber einigermaßen gut lesbar und verständlich.

Warum Blockchain-Analysen?

Interessant ist dabei, wie Elliptic das Vorhaben verteidigt. Grundsätzlich stehen Firmen und Personen, die Daten sammeln und auswerten, oft unter Rechtfertigungszwang, in der von Privatsphäre besessenen Krypto-Szene noch stärker als anderswo. Schließlich verletzt Elliptic die Privatheit von Usern, indem die  Firma untersucht, welche Transaktionen legal und welche illegal sind.  Allerdings liefern Elliptic bzw. die mitforschenden Wissenschaftler in ihrem Paper eine interessante Erklärung dafür.

Für viele Menschen der dritten Welt ist Banking teuer oder gar nicht verfügbar. Das Problem werde, so das Paper, auch dadurch verursacht, dass die Anti-Geldwäsche-Regulierung immer strenger wird. Dies sei zwar essentiell für die Sicherheit des Finanzsystem, ziehe aber besonders große negative Effekte auf einkommensschwache Schichten, Immigranten und Flüchtlingen nach sich. Denn die Anti-Geldwäsche-Regulierung treibt die Kosten, mit der Regulierung konform zu gehen, für Firmen hoch, während das Risiko, für mangelnde Konformität bestraft zu werden, steigt. Gerade ärmere Kunden sind für Banken dann oft das Risiko nicht länger wert.

Natürlich könne man jetzt kurzerhand die Anti-Geldwäsche-Regeln als übertrieben disqualifizieren. Dies sei aber zu kurz gedacht. Das Paper erwähnt milliardenschwere Drogenkartelle, Menschenhandel und Terrororganisationen, die weltweit massiven Schaden anrichten, und nennt mehrere Beispiele für schwere Geldwäscheskandale großer Banken, die am Ende auch den Steuerzahler enorme Summen gekostet haben. Geldwäsche sei kein opferloses Verbrechen, und die gegenwärtigen Methoden im Finanzsystem seien nicht gut darin, es zu verhindern. Blockchains werden für Elliptic nun zur Chance, es besser zu machen – indem sie den Aufwand für Anti-Geldwäsche-Maßnahmen verringern und damit die Zugänglichkeit von Banking zu erhöhen.

Allerdings genießt Bitcoin einen schlechten Ruf, weil es wegen seiner pseudonymen Natur oft von Kriminellen verwendet wird. Dies sorgt wiederum dafür, dass es für Unternehmen, die mit Kryptowährungen arbeiten, ebenfalls schwieriger wird, der Regulierung gerecht zu werden. Nachdem die FinCEN vor kurzem die Regeln des Bank Secrecy Acts (BSA) auch auf Kryptowährungen angewendet hat, erwartet die Branche einen strengeren Wind.

So sollen die Unternehmen etwa „individualisierte Risikoeinschätzungen vornehmen, um Geldwäsche, Terrorfinanzierung und andere finanzielle Verbrechen frühzeit aufzudecken.“ Diese Einschätzungen basieren auf zahlreichen Daten, wie dem individuellen Userprofil, seiner geographischen Herkunft sowie den angebotenen Produkten und Dienstleistungen. Neben einer starken Identifizierung der Kunden (KYC) verlangt der BSA aber auch, dass die Unternehmen „genügend über ihre Kunden wissen, um das Risiko bestimmen zu können, dass sie repräsentieren.“ Was genau „genug zu wissen“ bedeutet, ist eine vieldebatierte Sache der Interpretation. In der Praxis bedeute es, so das Paper, „nicht nur deinen Kunden zu kennen, sondern auch die Kunden deines Kundens.“ Was nicht eben einfach ist, da Bitcoin-Transaktionen zwar transparent, aber pseudonym sind.

Blockchain-Analyse-Firmen wie Elliptic helfen hier mit AML-Lösungen aus, für die die öffentliche Verfügbarkeit der Daten auf der Blockchain der Schlüssel ist. Die große Frage ist: Kann eine AML-Regulierung mit Bitcoin günstiger sein als mit Fiat-Geld? Können die Analyse-Firmen im immer weiter wachsenden Berg der Blockchain-Daten effizient und zuverlässig genug erkennen, ab wann eine Transaktion ein Risiko bedeutet?

Wie Elliptic aus der Blockchain ein Datenset gewinnt

Um solche Fragen zu beantworten, veröffentlicht Elliptic nun ein Datenset mit Bitcoin-Transaktionen. Das Datenset verbindet Transaktionen mit echten Entitäten, die wie Börsen, Miner, Wallets und andere Services legal, oder wie Betrüger, Ransomware, Terrororganisationen, Darknetmärkte und so weiter illegal sein können.

Aus den Rohdaten der Blockchain wird ein Graph gebildet, bei dem die Transaktionen die Knoten bilden und der Fluss von Bitcoins von einer Transaktion zur nächsten die Kanten („Edges“). Diese Daten wurden mit 166 „Features“ angereichert. Dabei handelt es sich einerseits um lokale Informationen über eine Transaktion – etwa die Zeit, die Anzahl von Inputs und Outputs, die Gebühren, das Volumen und mehr – sowie aggregierte Informationen, die entstehen, indem man die Transaktion im weiteren Kontext anschaut, etwa die Korrelationen zu den Nachbartransaktionen.

Das frei verfügbare Datenset ist gut 600 Megabyte groß und umfasst 203.769 Transaktionen und 234.355 Kanten. Im Verhältnis zur Blockchain ist es winzig; es deckt nur etwa einen halben Tag an Transaktionskapazität ab. Die Bitcoin-Blockchain selbst enthält 438 Millionen solcher Knoten und sogar 1,1 Milliarden Kanten. Eine vergleichbare Datenbank mit der gesamten Blockchain wäre ein bis zwei Terabyte groß, eventuell noch mehr, weil die Anzahl der Kanten im Verhältnis zu den Knoten deutlich höher ist als im Datenset von Elliptic.

Die Frage, ob eine Transaktion legal oder illegal ist, wird durch heuristische Prozesse beantwortet, wenn es keine anderen Datenpunkte gibt. Ein Beispiel: „Eine höhere Anzahl von Inputs und das Wiederverwenden derselben Adresse wird mit einem stärkeren Clustering von Adressen verbunden, was einen Verlust an Anonymität für die Entität bedeutet, die die Transaktion signiert. Gleichzeitig bietet die Konsolidierung von verschiedenen Adressen in einer Transaktion aber Vorteile für die Kosten der Transaktionen (Gebühren).“ Daraus folge, dass Entitäten, die weniger auf ihre Anonymität achten, vermutlich legal sind, während illegale Entitäten Transaktionen mit einer geringeren Anzahl von Inputs favorisieren, um eine Deanonymisierung zu verhindern. Natürlich ist dies nur einer von vielen Datenpunkten, der für sich alleine noch relativ nichtssagend ist.

Ein weiteres Problem beim Gewinnen der Features einer Transaktion liegt in der Größe der Blockchain, die derzeit aus 200 Gigabyte an komprimierten Daten besteht und etwa 400 Millionen Transaktionen enthält. „Auch wenn nicht alle Transaktionen Teil des Subsets für diese Studie sind, war es doch notwendig, die gesamte Blockchain zu verwenden, um die volle Geschichte der Wallets zu erfahren, die an einer bestimmten Transaktion teilhaben.“ Daher nutzt Elliptic „High-Performance Graph-Engines, die alle Daten im Arbeitsspeicher halten, um die Features zu berechnen.“ Um zeitnah Features auszurechnen, dürfte man also einen ziemlich starken Server mit ziemlich viel Arbeitsspeicher benötigen.

Auswertung durch Machine Learning

Das Ziel der Forschung von Elliptic und seinen Partnern ist es nun, die Rate der „False Positives“, also der vermeintlichen Treffer, die gar keine sind, zu reduzieren. Üblicherweise wird im Bankwesen eine hohe Rate von False Positives – bis zu 90 Prozent – toleriert. Der Alarm trifft also viel häufiger ehrlicher Bürger anstatt Kriminelle, was mit ein Grund ist, weshalb die AML-Regulierung so teuer ist.

Elliptic und die anderen Forscher testen nun an dem veröffentlichten Datenset mehrere Methoden, um herauszufinden, welche am besten geeignet ist, um Risiken in Zusammenhang mit Bitcoin-Transaktionen zu erkennen. In dem Set sind derzeit zwei Prozent als illegal und 21 Prozent als legal eingestuft; die Aufgabe der Forscher ist es nun, die anderen, noch nicht kategorisierten Transaktionen, ebenfalls einzuschätzen. Wenn ich es richtig verstehe, weiß Elliptic aufgrund blockchain-externer Daten, welche Antwort richtig ist, und kann so bewerten, wie gut sich die ausprobierten Heuristiken schlagen. Aber ich bin mir bei diesem Punkt nicht sicher.

Mithilfe des Machine-Learnings kann ein Computerprogramm zunächst die Features der bereits kategorisierten Transaktionen untersuchen, um zu erfahren, welche Eigenschaften dafür sprechen, dass eine Transaktion illegal ist, und welche dagegen sprechen. Anschließend kann der Algorithmus das, was er gelernt hat, auf die anderen Transaktionen anwenden. Hierfür gibt es mehrere Technologien, etwa die im Bankwesen zur Verhinderung von Geldwäsche oft eingesetzten Methoden der Logistische Regression sowie des Random Forests, und eine Multilayer Perceptron (MLP) genannte Methode. MLP basiert auf einem neuronalen Netzwerk, das Wahrscheinlichkeitsschätzungen liefert; Random Forest und Logistische Regression werden oft gemeinsam eingesetzt, da Random Forest akurater ist, während Logistische Regressionen mehr erklären können.

Solche Graphen-Analyse-Methoden zu kombinieren skaliert aber oft zu schlecht, um in der Praxis anwendbar zu sein. Daher versuchen die Forscher, dies mit mehreren Methoden zu umgehen. Zum einen bilden sie „Graph Convolutional Networks“ (GCN), die die Daten im Vorfeld aggregieren. Diese setzen sie dann in Verbindung mit zeitlichen Abläufen, um evolutionäre Dynamiken zu fassen.

Es gibt also vier Basis-Methoden, um das Datenset auszuwerten: Logistische Regression, Random Forest, Multilayer Perceptron und Graph Convolutional Networks. Dazu kann man diese Methoden mit sämtlichen Features füttern, oder nur mit den lokalen, die sich direkt aus der Transaktion speisen, und man kann die einzeln angewandten Methoden in das Umfeld von GCN setzen. Insgesamt haben die Forscher 14 Methoden ausprobiert, um zu erkennen, welche am präzisesten vorhersagen, welche Transaktionen legal und illegal sind.

Am schlechtesten hat dabei die Logistische Regression mit den lokalen Daten abgeschnitten, die es auf eine Präzision von 0,348 bringt. Ergänzt man die nicht-lokalen Features, kommt sie auf einen Wert von 0,404, nimmt man die GCN-Daten dazu, erreicht sie immerhin 0,537. Random Forest sowie MLP schneiden beide deutlich besser ab; vor allem Random Forest bringt es mit den gesamten Features auf eine Präzision von mehr als 0,95; setzt man es in den Kontext der GCN, erreicht es sogar 0,971 – der beste Wert von allen verglichenen Methoden. Der entscheidende Wert für die Bestimmung illegaler Transaktionen ist aber wohl „F1“, für den keine der Methoden auf mehr als 0,8 kommt.

Dabei sind alle Methoden schlecht darin, auf unvorhergesehene Ereignisse zu reagieren. So umfasst das Datenset auch einen Shutdown eines großen Darknet-Marktes. Kurz nach diesem haben alle Methoden – selbst nach eines vorübergehenden Nachtrainings – weitgehend darin versagt, illegale Transaktionen zu erkennen. Vermutlich, weil der Darknet-Markt das Muster illegaler Transaktionen stark geprägt hat, und die Algorithmen nun nicht mehr in der Lage sind, den Wegfall dieser typischen Muster zu verarbeiten.

Während es also möglich scheint, illegale Transaktionen bei Bitcoin deutlich verlässlicher zu identifizieren als im herkömmlichen Bankwesen, gibt es bei der Methodik noch einiges an Luft nach oben. Die ständig wachsende Blockchain – die oft als Problem für die Betreiber von Nodes gehandelt wird – wird dabei auch für die Analysten der Blockchain zu einem Problem, da jede Transaktion mit anderen Transaktionen verbunden sein kann, die in einem beliebigen Block in der Blockchain steht.


Herrlich sowas dieser Inhalt wurde geschrieben von

(2 x gelesen, 1 tägliche Besuche)
Spread the love