Eine Zahl
HeimHeim > Nachricht > Eine Zahl

Eine Zahl

Jun 25, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 12499 (2023) Diesen Artikel zitieren

1 Altmetrisch

Details zu den Metriken

Die organisierte Einzelhandelskriminalität (ORC) ist ein erhebliches Problem für Einzelhändler, Marktplatzplattformen und Verbraucher. Seine Verbreitung und sein Einfluss haben im Gleichschritt mit der Ausweitung des Online-Handels, digitaler Geräte und Kommunikationsplattformen schnell zugenommen. Heutzutage ist es eine kostspielige Angelegenheit, die verheerende Auswirkungen auf die Gesamteinnahmen der Unternehmen hat und ständig die Sicherheit der Gemeinschaft gefährdet. Diese negativen Folgen werden beispiellose Ausmaße annehmen, da immer mehr Menschen und Geräte mit dem Internet verbunden werden. Für den Schutz von Verbrauchern und Unternehmen ist es von entscheidender Bedeutung, diese schrecklichen Taten so früh wie möglich zu erkennen und darauf zu reagieren und gleichzeitig zunehmende Muster und Betrug im Auge zu behalten. Die Frage der Aufdeckung von Betrug im Allgemeinen wurde umfassend untersucht, insbesondere im Finanzdienstleistungsbereich, doch Studien, die sich auf organisierte Einzelhandelskriminalität konzentrieren, sind in der Literatur äußerst selten. Um zur Wissensbasis in diesem Bereich beizutragen, präsentieren wir eine skalierbare Strategie für maschinelles Lernen zur Erkennung und Isolierung von ORC-Einträgen auf einer prominenten Marktplatzplattform durch Händler, die organisierte Einzelhandelskriminalität oder Betrug begehen. Wir verwenden einen überwachten Lernansatz, um Beiträge auf der Grundlage früherer Daten zum Käufer- und Verkäuferverhalten und zu Transaktionen auf der Plattform als betrügerisch oder echt zu klassifizieren. Das vorgeschlagene Framework kombiniert maßgeschneiderte Datenvorverarbeitungsverfahren, Methoden zur Merkmalsauswahl und modernste Techniken zur Auflösung von Klassenasymmetrien, um nach abgestimmten Klassifizierungsalgorithmen zu suchen, die in diesem Zusammenhang zwischen betrügerischen und legitimen Einträgen unterscheiden können. Unser bestes Erkennungsmodell erreicht einen Recall-Score von 0,97 für den Holdout-Satz und 0,94 für den Out-of-Sample-Testdatensatz. Wir erzielen diese Ergebnisse auf der Grundlage einer Auswahl von 45 von 58 Funktionen.

In jüngster Zeit ist die Nutzung von Handels- und Kommunikationsplattformen im Internet gestiegen, was durch die COVID-19-Pandemie noch verstärkt wurde. Mehr als je zuvor führt ein beträchtlicher Teil der Bevölkerung normale Aktivitäten online und zu Hause aus, darunter Arbeit, Schule, Einkaufen, Arzttermine und Unterhaltung1. Cyberkriminalität und Betrug haben im Einklang mit der weit verbreiteten Nutzung digitaler Geräte und Plattformen erheblich zugenommen2 und setzen das Muster fort, der Weltwirtschaft Milliarden von Dollar zu verlieren3 und die Sicherheit der Gemeinschaft zu gefährden4.

Cyberkriminalität und Betrug umfassen eine Vielzahl abscheulicher Handlungen, darunter Phishing, Malware, betrügerischer E-Commerce, Romantikbetrug, Betrug beim technischen Support, Erpressung oder Erpressung und Denial of Service1. Darüber hinaus gibt es Fälle von Kreditkartendiebstahl, Geldwäsche und Plagiaten. Beide Praktiken wirken sich nachteilig auf Unternehmen und Kunden aus und stellen erhebliche wirtschaftliche, rufschädigende und psychologische Gefahren für diese Unternehmen dar.

Die Bekämpfung von Cyberkriminalität und Betrug ist eine zeitaufwändige und kostspielige Aufgabe, da sich Kriminelle ständig weiterentwickeln und neue Chancen nutzen, um die Schwachstellen bestehender Betrugsschutz- und -erkennungssysteme auszunutzen. Geringe Entwicklungsanstrengungen verschärfen das Problem noch weiter, indem sie den Ideenaustausch in der Betrugsforschung einschränken. Beispielsweise macht es keinen Sinn, Techniken zur Betrugserkennung oder -prävention öffentlich zu erklären, da dies Betrügern die Informationen liefern könnte, die sie benötigen, um einer Entdeckung zu entgehen.

Wenn es um die Bekämpfung von Cyberkriminalität und Betrug geht, sei es durch Prävention oder Aufdeckung, sind in der Literatur hauptsächlich zwei Methoden dokumentiert. Unter Prävention versteht man Maßnahmen, die dazu dienen, das Auftreten der Taten von vornherein zu verhindern. Dazu gehören komplizierte Designs, persönliche Identitätsnummern, Internetsicherheit für Online-Interaktionen mit digitalen Plattformen sowie Passwörter und Authentifizierungsmechanismen für Computer und mobile Geräte5. Keine dieser Lösungen ist perfekt; Häufig muss ein Kompromiss zwischen Kosten (für das Unternehmen) und Unannehmlichkeiten (für den Kunden) geschlossen werden. Auf der anderen Seite geht es bei der Erkennung darum, betrügerische Handlungen zu erkennen, sobald sie auftreten5. Wenn die Prävention versagt, wird sie materiell. Beispielsweise können wir Kreditkartenbetrug verhindern, indem wir unsere Karten heimtückisch schützen. Wenn jedoch die Karteninformationen gestohlen werden, müssen wir den Betrug so schnell wie möglich bemerken5.

Bei der Entwicklung von Systemen zur Betrugserkennung und -prävention gibt es zwei gegensätzliche Denkrichtungen. Das erste sind prostatistische und rechnerische Methoden, wobei Forscher wie5,6,7 umfangreiche Veröffentlichungen auf diesem Gebiet veröffentlichen. Diese Denkrichtung nutzt statistische Tools, einschließlich maschineller Lernalgorithmen, um Betrug zu erkennen. Klassifizierer können darauf trainiert werden, mithilfe gekennzeichneter Daten (betrügerisch und nicht betrügerisch) zwischen den beiden Klassen zu unterscheiden. Unter diesen Umständen werden Klassifikatoren mit Daten aus Benutzerprofilen wie Transaktionsbetrag, Wochentag, Artikelkategorie, Alter, Geschlecht und Geografie gefüttert. Diejenigen, die sich gegen statistische und rechnerische Methoden aussprechen, behaupten, dass diese Merkmale von raffinierten Betrügern leicht erfunden werden8. Irani, Pu und Webb9,10 glauben, dass Betrüger, sobald sie entdecken, dass die Behörden ihren Jargon verstanden haben, Schlüsselwortfallen vermeiden können, indem sie auf neue Phrasen umsteigen. Die letztgenannte Denkrichtung schlägt die Netzwerkanalyse als alternative Methode zur Entwicklung von Betrugserkennungsfunktionen vor8,11. Das Konzept nutzt die Verbindung zwischen Knoten, häufig Benutzern oder Elementen, in einem Datensatz, um graphentheoretische Variablen oder Bewertungen abzuleiten, die Knoten eindeutig charakterisieren. Die Strategien basieren auf der Annahme, dass abnormale Benutzer Verbindungsmuster aufweisen, die sich von denen normaler Benutzer unterscheiden8.

In unserer Situation schließen wir uns offiziell keiner dieser Denkschulen an. Stattdessen argumentieren wir, dass der Ansatz zur Betrugserkennung vom Kontext des Problems bestimmt und weiter von vielen Interessengruppen beeinflusst werden sollte, die sich für das Ziel einsetzen, Betrugsfälle zu reduzieren. Daher ist es wichtig, Systeme aufzubauen, die ständig lernen und sich anpassen, um böswillige Akteure in Schach zu halten. Darüber hinaus akzeptieren wir zwar, dass menschliches Verhalten sowie soziale und kulturelle Aspekte zentrale Überlegungen bei der Entwicklung von Erkennungs- und Präventionssystemen1 sind, argumentieren jedoch, dass sie mit automatisierten Prozessen zusammenarbeiten müssen, um den steigenden Trend bei Betrugsfällen einzudämmen.

Die Automatisierung der Betrugserkennung durch Data-Mining- und maschinelle Lernansätze stellt eine einmalige Chance dar, die Belastung für Menschen erheblich zu verringern und sich gleichzeitig an eine dynamische Betrugsumgebung anzupassen. In diesem Artikel betonen wir die Bedeutung der Automatisierung bei der Betrugserkennung mit einem Ansatz des maschinellen Lernens, um eine effiziente und skalierbare Betrugserkennung in einem Bereich einzuführen, der von manuellen Prozessen und ineffizienten Methoden wie Heuristiken und regelbasierten Ansätzen geprägt ist. Wir präsentieren ein Framework für maschinelles Lernen, das auf einem experimentellen Design-Setting basiert, in dem wir nach dem optimalen Lernalgorithmus für die Unterscheidung zwischen betrügerischen und nicht betrügerischen Ereignissen suchen.

Unser Problem wird vor dem Hintergrund der organisierten Einzelhandelskriminalität (ORC) kontextualisiert. Unter ORC versteht man den weitverbreiteten Diebstahl alltäglicher Konsumgüter aus stationären Geschäften, wobei die gestohlenen Waren dann über verschiedene Kanäle an andere Einzelhändler oder Privatpersonen weiterverkauft oder verkauft werden. Im digitalen Zeitalter sind organisierte Einzelhandelsdiebe immer geschickter geworden und nutzen digitale Online-Marktplätze, um ihre gestohlenen Produkte abzusichern. Sie beabsichtigen, von digitalen Plattformen die gleichen Vorteile wie legale Anbieter zu erhalten, beispielsweise eine höhere Produktivität oder Effizienz beim Handel7 ihrer gestohlenen Produkte.

Wie auch bei anderen Formen des Betrugs sind die wirtschaftlichen Kosten der organisierten Einzelhandelskriminalität erheblich und steigen Jahr für Jahr alarmierend an. Laut der Umfrage der National Retail Foundation zur organisierten Kriminalität aus dem Jahr 2020 verlieren Einzelhändler durchschnittlich 719.548 US-Dollar pro 1 Milliarde US-Dollar Umsatz. Diese Verluste sind viel höher als die 703.320 US-Dollar im Jahr 2019 und die 453.940 US-Dollar im Jahr 2015. Drei von vier ORC-Opfern berichten von einem Anstieg von ORC im Jahr 202012. Einzelhändler gehen davon aus, dass der Anstieg von ORC-bezogenen Ereignissen auf geänderte Gesetze und Strafen für Ladendiebstahl zurückzuführen ist. ORC hat erhebliche Auswirkungen auf Kriminalitätsstatistiken und Einnahmeverluste. es untergräbt die Lebensfähigkeit von Einzelhandelsunternehmen; und es wird häufig zur Finanzierung anderer illegaler Operationen verwendet13. Die Literatur zu ORC ist spärlich; Es gibt nur wenige Veröffentlichungen zu diesem Thema. Daher stellt dieses Papier eine hervorragende Gelegenheit dar, zur Evidenzbasis in diesem Bereich beizutragen. Reid et al.14 untersuchen in der präventiven Literatur automatisierte Methoden zur Erkennung allgemeiner Einzelhandelskriminalität anhand eines Satzes von fünfzehn visuellen sozialen Variablen, die aus Videomaterial aus dem Kriminalitätsdatensatz der University of Central Florida extrahiert wurden. Wir konnten keine Literatur zum Nachweis von ORC finden.

Unsere Forschung hat Konsequenzen für Theorie und Praxis. Auf der theoretischen Seite gibt es zwei Hauptkritikpunkte in der Literatur, die unser Ansatz anspricht: ein Mangel an öffentlich zugänglichen realen Daten, auf denen Experimente durchgeführt werden können, und ein Mangel an veröffentlichten, gut erforschten Methoden und Techniken6. Darüber hinaus nehmen wir die Herausforderung früherer Forschungsarbeiten an, die darin besteht, dass zukünftige Arbeiten Text-Mining-Techniken verwenden sollten (in einem späteren Artikel). Zunächst analysieren wir einen großen Datensatz einer großen Marktplatzplattform und stellen die Ergebnisse öffentlich zur Verfügung, um zukünftige Untersuchungen zur Betrugserkennung im ORC-Bereich voranzutreiben. Zweitens entwickeln wir ein maschinelles Lernsystem zur Erkennung und Verhinderung von Plattform-ORC. In der Praxis hoffen wir, Betrug zu reduzieren, indem wir schlechte Akteure oder Betrüger identifizieren und ausschalten. Insbesondere automatisieren wir die Suche nach Betrugshinweisen, um Betrugsermittlungsteams bei ihren Ermittlungsbemühungen zu unterstützen. Die Automatisierung verbessert die Betrugserkennung und die Effizienz der Ermittlungen, was zu geringeren Betriebskosten führt.

Der Rest dieses Dokuments ist wie folgt gegliedert: Der Abschnitt „Verwandte Arbeiten“ bietet einen Überblick über relevante Literatur zu diesem Thema; Der Abschnitt „Der vorgeschlagene Rahmen“ enthält eine detaillierte Beschreibung des vorgeschlagenen Rahmens sowie der in der Studie durchgeführten Experimente. Der Abschnitt „Daten und Methoden“ bietet eine Beschreibung unserer Daten und Methoden; Der Abschnitt „Ergebnisse und Diskussionen“ enthält die Ergebnisse und Diskussionen. Der Abschnitt „Schlussfolgerung und zukünftige Forschungsarbeiten“ schließt das Papier ab und zeigt Möglichkeiten für zukünftige Arbeiten auf.

Aufgrund ihrer Anpassungsfähigkeit und Rentabilität verzeichnen E-Commerce-Plattformen wie Yahoo und eBay ein rasantes Wachstum15. Der Online-Betrug auf diesen Websites hat im Gleichschritt mit diesem Wachstum zugenommen. Das Internet Fraud Complaint Center (IFCC) hat Online-Betrug in sechs Kategorien eingeteilt: (1) Nichtlieferung von Waren; (2) falsche Darstellung des Produkts; (3) Triangulation; (4) Gebühreneinsatz; (5) Warenverkäufe auf dem Schwarzmarkt; und (6) Mehrfachgebot und Nebengebot. Andere Wissenschaftler haben verschiedene Klassifizierungsschemata für Online-Betrug vorgeschlagen. Teilen Sie es zum Beispiel16 in drei Zeiträume ein: vor der Auktion, während der Auktion und nach der Auktion, während17 Sie es in vier Arten von Betrügereinstellungen unterteilen: aggressiv, klassisch, luxuriös und unauffällig. Einige Untersuchungen deuten zwar darauf hin, dass Bid Shielding die häufigste Art von Betrug in diesen Kategorien ist7, es ist jedoch wahrscheinlich, dass verschiedene Kategorien unterschiedliche Arten von Online-Marktplattformen unverhältnismäßig stark beeinträchtigen. In unserer Situation organisieren wir unsere Materialien und Verfahren, um eine bestimmte Art von Online-Betrug zu erkennen, der als (v) klassifiziert ist.

Als Reaktion auf die zunehmende Verbreitung von Online-Betrug haben Forscher verschiedene Systeme zur Betrugserkennung entwickelt7. Aleem und Antwi-Boasiako18 klassifizieren sie in drei Kategorien: Methoden zur Erkennung von Feedback-Anomalien, Data-Mining-Systeme und auf Agenten basierende Vertrauensverwaltungssysteme. Methoden zur Erkennung von Feedback-Anomalien verwenden ein Reputationssystem für den Verkäufer, das auf Kundenfeedback basiert, um Betrugswerte zu berechnen, wobei negatives Feedback den Betrugswert um eins erhöht und positives Feedback ihn um eins verringert17. Laut mehreren Forschern18,19 ist diese Strategie häufig nutzlos, da sie dazu ausgenutzt werden kann, erfundene und aufgeblähte Reputationen zu erzeugen. Data-Mining-Systeme sind heutzutage weit verbreitet und bestehen aus zwei grundlegenden Schritten: (1) der Entwicklung von Funktionen, die Benutzerprofile und Transaktionsverläufe aus fachmännisch gekennzeichneten Daten oder gesperrten Konten extrahieren, um zwischen einem legitimen Händler und einem Betrüger zu unterscheiden, und (2) der Entwicklung ein Betrugserkennungsmodell basierend auf den entwickelten Funktionen19,20. Als Erkennungsmodell verwenden Forscher häufig einen Klassifizierungsalgorithmus. In der Literatur wurde gezeigt, dass baumbasierte Klassifizierungsalgorithmen eine gute Leistung erbringen6. Abdallah et al.7 fassen die in der Literatur am häufigsten verwendeten Data-Mining-Techniken wie folgt zusammen (Tabelle 1):

Schließlich lösen agentenbasierte Vertrauensmanagementlösungen Fragen des Vertrauens und der Identifikation durch die Interaktion zahlreicher intelligenter Agenten21,35.

Eine verzerrte Verteilung (unausgeglichene Klasse) ist eines der schwerwiegendsten Probleme, auf die Betrugserkennungssysteme stoßen7. Im Großen und Ganzen besteht das Problem der unausgeglichenen Klassen darin, dass die Stichprobengröße betrügerischer Fälle deutlich kleiner ist als die Stichprobengröße normaler Fälle36. Das Arbeiten mit verzerrten Daten wird von Chawla et al.37 als „unausgeglichenes Lernen“ bezeichnet, und die Daten weisen unter diesen Umständen eine verzerrte Verteilung der Klassen sowohl in binären als auch in Mehrklassenszenarien auf. Beim Training herkömmlicher Algorithmen für maschinelles Lernen mit unausgeglichenen Daten trägt die Minderheitsklasse weniger zur Minimierung der Zielfunktion bei38, was zu einer geringen Leistung des Modells bei der Vorhersage von Minderheitsklasseninstanzen führt. In den meisten tatsächlichen Anwendungen ist die korrekte Identifizierung von Minderheitsinstanzen wichtiger39. Um eine gute und robuste Verallgemeinerung maschineller Lernalgorithmen zu gewährleisten, ist die effektive Bewältigung dieses Problems von wesentlicher Bedeutung.

Forscher haben verschiedene Strategien zur Lösung von Klassenasymmetrien entwickelt, die in zwei große Kategorien eingeteilt werden können: Datenebene und algorithmische Methoden7. Bei der ersten Methode werden Ausgleichstechniken verwendet, um die Daten vor dem Training der Klassifizierungsalgorithmen neu auszugleichen. Der Großteil der Forschung zu Betrugserkennungssystemen verwendet Strategien zur Neuausrichtung auf Datenebene, die typischerweise eine Unterabtastung der Mehrheitsklasse, eine Überabtastung der Minderheitsklasse oder eine Kombination aus beiden beinhalten, um ein Verhältnis von 1:1 zwischen den Klassen zu erreichen. Zahlreiche vorgeschlagene Betrugserkennungssysteme haben eher eine Unterabtastung als eine Überabtastung durchgeführt. Als einfachste Form der Überabtastung liefert die zufällige Überabtastung keine zusätzlichen Informationen zu den Daten und führt häufig zu einer Überanpassung des Modells40. Eine überlegene Alternative zum Oversampling ist die Synthetic Minority Oversampling Technique (SMOTE)41. SMOTE führt eine Überabtastung der Minderheitenklasse durch, indem es synthetische Minderheitsfälle in der Nähe der beobachteten Klasse generiert. Dal Pazzolo et al.42 untersucht die Rebalancing-Ansätze SMOTE und EasyEnsemble zur Identifizierung von Kreditkartenbetrug und stellt fest, dass beide Verfahren zur Verbesserung ihrer Modellergebnisse beitragen. Wie der Name schon sagt, adressieren Methoden auf algorithmischer Ebene Minderheitenklassen (betrügerische Klassen) auf algorithmischer Ebene. Dazu gehört kostensensitives Lernen, das der Fehlklassifizierung der verschiedenen Klassen Kosten zuordnet, basierend auf der Annahme, dass eine Kostenmatrix für die verschiedenen Arten von Fehlern existiert43. In Betrugserkennungssystemen wurden zwei Ansätze für kostensensitives Lernen vorgeschlagen: (1) Metakostenschwellen oder die Beschäftigung von Lernenden, die nicht empfindlich auf Klassenungleichgewichte reagieren40, und (2) die Beschäftigung der Lernenden, um mit Klassenschiefe umzugehen. Die Lernenden sind entweder von Natur aus resistent gegen das Klassenungleichgewichtsproblem, wie dies beim RIPPER-Algorithmus (Repeated Incremental Pruning to Produce Error Reduction)44 der Fall ist, oder sie werden intern so modifiziert, dass sie gegen das Problem resistent sind, wie dies bei K-Nearest Neighbor und der Fall ist Unterstützung von Vektor-Maschinenlernern7.

Im Allgemeinen übertreffen Methoden auf Datenebene die Methoden auf Algorithmusebene7. Sie sind außerdem einfach zu implementieren und haben keinen Einfluss auf den Rechenaufwand.

Der vorgeschlagene Rahmen umfasst vier verschiedene Experimente. Die durchgeführten Experimente führen zur Ermittlung des besten Erkennungsmodells für organisierte Betrugsfälle im Einzelhandel. Das in Abb. 1 dargestellte Datenflussdiagramm veranschaulicht die wichtigsten Schritte des vorgeschlagenen Frameworks.

Daten und Informationen für das auf dem Marktplatz organisierte Betrugserkennungssystem im Einzelhandel.

In diesem Design extrahieren wir numerische Merkmale und verarbeiten die Daten vor. Ohne die Anwendung von Asymmetrieauflösungstechniken trainieren wir sieben Klassifikatoren, die auf der Grundlage einer Literaturrecherche ausgewählt wurden (Einzelheiten siehe Tabelle 4). Wir verwenden einen Rastersuchansatz mit wiederholter geschichteter k-facher Kreuzvalidierung, um die optimale Hyperparameterkonfiguration für jeden Klassifikator zu erhalten. Durch die Schichtung wird sichergestellt, dass jede Falte des Datensatzes den gleichen Anteil an Beobachtungen mit einer bestimmten Bezeichnung aufweist.

Wir verwenden in diesem Entwurf dieselben Daten wie in Experiment 1, um ein Ensemble zu erstellen, das über die sieben Klassifikatoren gestapelt ist (siehe Abb. 2 für diese Architektur). Dieser Ansatz beinhaltet die Kombination von Vorhersagen aller Klassifikatoren für denselben Datensatz und umfasst Bagging und Boosting. Wir tun dies, um die Frage zu beantworten, wie wir angesichts mehrerer Modelle für maschinelles Lernen, die sich mit einem Problem, aber auf unterschiedliche Weise auskennen, die besten Aspekte der einzelnen Modelle nutzen können. Im Allgemeinen umfasst die Architektur eines Stapelmodells zwei oder mehr Basismodelle, die oft als Level-0-Modelle bezeichnet werden, und ein Metamodell, das die Vorhersagen der Basismodelle kombiniert, das als Level-1-Modell bezeichnet wird. In unserem Kontext trainieren wir das Metamodell anhand von Vorhersagen, die von den Basismodellen auf dem Holdout-Datensatz gemacht werden. Die Vorhersagen liefern zusammen mit den erwarteten Ausgaben die Eingabe- und Ausgabepaare des Trainingsdatensatzes, der zur Anpassung des Metamodells verwendet wird. Wir verfolgen einen Ansatz, der eine k-fache Kreuzvalidierung der Basismodelle verwendet, wobei die Out-of-Fold-Vorhersagen als Grundlage für den Trainingsdatensatz verwendet werden. Nachfolgend finden Sie ein Diagramm zur Veranschaulichung der Architektur, der wir folgen:

Gestapelter Generalisierungsansatz unter Verwendung aller sieben Klassifikatoren als schwache Lernende.

Die Lösung der Klassenasymmetrie steht im Mittelpunkt unseres Rahmenwerks, da Betrugsdaten häufig eine Klassenasymmetrie zwischen betrügerischen und nicht betrügerischen Fällen aufweisen. Daher suchen wir nach geeigneten Techniken zum Klassenausgleich für unseren Datensatz, bevor wir die Schritte in den Experimenten 1 und 2 wiederholen (siehe Abb. 1). Im Wesentlichen ist das Ergebnis dieses Teils die beste Kombination aus Klassen-Rebalancing-Technik und Klassifikator für unseren Kontext. Wir beschreiben unseren Ansatz zur Klassenauflösung ausführlicher im Abschnitt „Daten und Methoden“.

In diesem Abschnitt stellen wir die Daten und Methoden unserer Experimente vor. Es wird eine kurze Beschreibung der Klassifikatoren sowie der experimentellen Einstellungen gegeben.

Um das Vorhandensein von ORC zu erkennen, verwenden wir historische Daten zu Aktivitäten und Transaktionen einer beliebten weltweiten Online-Marktplatzplattform. Aufgrund von Datenkennzeichnungsbeschränkungen arbeiten wir mit einer Stichprobe von 3606 in den USA ansässigen Verkäufern. Die primären Datenfelder umfassen Produktlisteninformationen und Verkäuferattribute. Um eine konsistente Sammlung von Angeboten und Verkäufern zu gewährleisten, beschränken wir unsere Forschungs- und Modellierungsbemühungen auf Händler mit hohem Volumen (Top-Seller nach Angeboten in den letzten neunzig Tagen). Die Probenzusammensetzung ist in Tabelle 2 zusammengefasst.

Die endgültige Datensammlung besteht aus einer Mischung aus numerischen, Kategorie- und Textdatentypen, wobei die Textmerkmale hauptsächlich aus dem Titel und der Beschreibung des Elements bestehen. In diesem Artikel verlassen wir uns mehr auf die numerischen und kategorialen Merkmale als auf die Textmerkmale. Bei unserer Datenuntersuchung haben wir nicht festgestellt, dass die Textdaten die Leistung der Modelle wesentlich verbessern würden. Wir fassen den endgültigen Funktionsumfang in Tabelle 3 zusammen.

Wie in Abb. 3 oben dargestellt, führen wir eine Reihe von Datenvorverarbeitungsvorgängen für den Datensatz durch. Dazu gehört die Lösung von Problemen wie doppelten Einträgen, fehlenden Daten und Ausreißern. Der Schritt zum Entfernen von Duplikaten ist von entscheidender Bedeutung, da Angebote erneut auf dem Marktplatz veröffentlicht werden können. Daher löschen wir doppelte Angebote basierend auf der Verkäufer-ID, dem Titel des Angebots, der Beschreibung und dem Preis. Fehlende Werte werden durch Löschen von Zeilen oder Spalten behoben. Wenn der Anteil fehlender Daten in einer Spalte weniger als 20 % beträgt, werden die betreffenden Zeilen gelöscht; andernfalls wird die gesamte Spalte gelöscht. Wir haben keinen Grund zu der Annahme, dass dieser Ansatz den Wert des Datensatzes mindert. Wir verwerfen Werte, die mehr als drei Standardabweichungen vom Mittelwert in Spalten wie „Produktpreis“ betragen, wo die Wahrscheinlichkeit von Ausreißereffekten erheblich ist.

Schritte zur Datenvorverarbeitung.

Darüber hinaus nutzen wir Feature Engineering, um aus bestehenden neue prädiktive Features zu erstellen.

Unsere Feature-Engineering-Prozesse umfassen die One-Hot-Codierung kategorialer Variablen, die Generierung von Dummy-Spalten für die Versandart und die Generierung neuer Features basierend auf Titel- und Produktbeschreibungsmerkmalen wie der Anzahl der Wörter, dem Prozentsatz der großgeschriebenen Wörter und dem Prozentsatz der Interpunktion. Der letzte Schritt der Datenvorverarbeitung umfasst die Skalierung des endgültigen Feature-Sets, um sicherzustellen, dass alle Features eine vergleichbare Größe haben. In diesem Fall verwenden wir die Standardskalierung. Tabelle 3 zeigt eine Liste dieser Funktionen und ihre Beschreibungen.

Die erste Auswahl dieser Funktionen basiert auf Gesprächen mit ORC-Experten, die über umfassende Erfahrung in der Identifizierung und Eindämmung organisierter Betrugsfälle im Einzelhandel verfügen.

In der Literatur zur Betrugserkennung werden häufig Klassifizierungstechniken zur Entwicklung des Erkennungsmodells verwendet6. Die Klassifizierung ist eine überwachte Lerntechnik, die darauf abzielt, eine Unterscheidungsfunktion zu erhalten, die Proben kategorisiert45. Tabelle 1 umfasst die in der Literatur am häufigsten verwendeten Klassifikatoren. Als ersten Schritt auf unserer Suche nach dem leistungsstärksten Modell passen wir diese Klassifikatoren an unseren Kontext an. Darüber hinaus stellen wir neue Lernende vor, um diese Grundlagen zu verbessern. Wir fügen in unserem Experiment insbesondere einen ausgewogenen Zufallswaldklassifikator und ein gestapeltes Ensemble aller Klassifikatoren hinzu. Der Balanced Random Forest-Klassifikator wurde entwickelt, um das Problem unausgeglichener Klassen in unserem Datensatz zu bewältigen. Nachfolgend präsentieren wir kurze Beschreibungen der einzelnen verwendeten Klassifikatoren:

Die logistische Regression ähnelt der linearen Regression bei Klassifizierungsaufgaben. Es ermittelt die Werte für die Koeffizienten \(\beta_{{1,{ }}} \beta_{2} , \ldots .,\beta_{n}\), die jedes Merkmal \(X_{1} ,{ }X_{ 2} ,{ } \ldots ,{ }X_{n}\) entsprechend. Es führt seine Vorhersagen durch, indem es die Ausgabe durch eine Logistikfunktion umwandelt46. Somit kann die Wahrscheinlichkeit, dass eine Auflistung als ORC-Betrug (Klasse 1) oder als legitim (Klasse 0) eingestuft wird, wie folgt angegeben werden:

Wo

Die Gewichte werden aus den Eingabedaten mithilfe der Maximum-Likelihood-Methode geschätzt. Wenn \(P\left( {class = 1} \right) > 0,5\), dann ist die Auflistung betrügerisch, und wenn \(P\left( {class = 1} \right) < 0,5\), dann ist die Auflistung betrügerisch legitim.

Der k-Nearest-Neighbor-Algorithmus geht davon aus, dass ähnliche Datenpunkte in n-dimensionalen Räumen nahe beieinander liegen. Die Ähnlichkeit zwischen den Datenpunkten wird häufig anhand des Abstands zwischen den Punkten gemessen (normalerweise der Euklidische Abstand oder der Mahalanobis-Abstand)47. Die Klasse eines neuen Datenpunkts wird durch eine Validierung der lokalen A-Posteriori-Wahrscheinlichkeit jeder Klasse vorhergesagt, die anhand der durchschnittlichen Klassenmitgliedschaft über ihre k-nächsten Nachbarn besteht. Datensätze mit hoher Kardinalität könnten für diesen Algorithmus eine Herausforderung darstellen, da er auf dem Abstand zwischen Datenpunkten und seinen Dimensionen basiert45.

Support-Vector-Maschinen (SVMs) sind überwachte Lernmodelle mit Algorithmen, die Daten zur Klassifizierung oder Regressionsanalyse analysieren48. Das Ziel des Algorithmus besteht darin, eine Hyperebene in einem n-dimensionalen Raum zu finden, die die Datenpunkte eindeutig klassifiziert. Die Auswahl basiert auf der Hyperebene mit dem größten Spielraum, also der Hyperebene, die den maximalen Abstand zwischen Datenpunkten in einem binären Klassenaufbau darstellt. Die der Hyperebene am nächsten liegenden Punkte werden als „Stützvektoren“ bezeichnet, da sie die Position und Ausrichtung der Hyperebene beeinflussen. Die Anzahl der Features beeinflusst auch die Dimension der Hyperebene46.

Dieser Klassifikator geht von der naiven Annahme aus, dass alle Merkmale in den Eingabedaten unabhängig voneinander sind, und wendet dabei das Bayes-Theorem an, das die Wahrscheinlichkeit eines Ereignisses beschreibt, basierend auf Vorkenntnissen über Bedingungen, die mit dem Ereignis zusammenhängen könnten. Genauer gesagt geht man davon aus, dass alle Merkmale unabhängig voneinander zur Wahrscheinlichkeit der gegebenen Klasse beitragen, was oft eine starke Annahme ist und in der Praxis unrealistisch ist. Der Algorithmus geht davon aus, dass die außerdiagonalen Werte der Kovarianzmatrix Null (unabhängig) sind. Dann ist die gemeinsame Verteilung das Produkt einzelner univariater Dichten (vorausgesetzt, sie sind Gaußscher Natur)49.

Der Entscheidungsbaumalgorithmus ist eine überwachte Lerntechnik, mit der sowohl Klassifizierungs- als auch Regressionsprobleme gelöst werden können. Zur Lösung des Problems wird eine Baumdarstellung verwendet, bei der jeder Blattknoten einer Klassenbezeichnung entspricht und Attribute auf dem internen Knoten des Baums dargestellt werden. Der Zweig oder Unterbaum stellt eine Entscheidungsregel dar, und der oberste Knoten wird als Entscheidungs- oder Wurzelknoten bezeichnet. CART ist die am häufigsten verwendete Art von Entscheidungsbaum, bei dem Klassifizierungsbäume auf eine kategoriale Zielvariable angewendet werden und der Baum zur Identifizierung der Klasse der Zielvariablen verwendet wird. Regressionsbäume hingegen werden auf eine kontinuierliche Zielvariable angewendet und die Endknoten des Baums enthalten die vorhergesagten Ausgabevariablenwerte50.

Random Forest ist einer der Ensemble-Algorithmen, der auf der Bootstrap-Aggregation (Bagging-Technik) basiert. Ensemble ist eine maschinelle Lerntechnik, die mehrere Basislernalgorithmen kombiniert, um ein besseres Vorhersageleistungsmodell zu erstellen, während Bagging eine Technik ist, die den Bootstrap-Algorithmus verwendet, um eine Zufallsstichprobe aus einem bestimmten Datensatz mit Ersatz zu erhalten und die Basislerner und Aggregate zu trainieren ihre Ausgaben, um ein Modell mit geringerer Varianz bereitzustellen. Es erstellt eine Reihe von Entscheidungsbäumen auf der Grundlage zufälliger Stichproben der Trainingsdaten und nutzt einen Abstimmungsmechanismus, der auf den Vorhersagen jedes einzelnen Baums basiert, um ein endgültiges Modell zu generieren. Während des Trainings werden suboptimale Aufteilungen für Bäume anhand der Zufälligkeit der ausgewählten Teilmenge des Trainingssatzes ausgewählt. Dadurch werden unterschiedliche Modelle erstellt und deren Ergebnisse über den Abstimmungsmechanismus51 kombiniert

Gradient Boosting52 erstellt ein additives Modell in einem vorwärtsgerichteten, stufenweisen Ansatz. Zur Lösung eines binären Klassifizierungsproblems wird ein spezieller Algorithmus, die zweistufige logistische Wahrscheinlichkeit, verwendet:

Die Gradientenverstärkung von Regressionsbäumen ermöglicht die gierige Optimierung beliebiger Differentialverlustfunktionen. Bei jeder Anpassungsiteration ist der Lösungsbaum (kleinste Quadrate) derjenige, der die Residuen minimiert, auch bekannt als negativer Gradient der binomialen oder multinomialen Abweichungsverlustfunktion. Die Gradient-Boosting-Methode hat zwei Hauptparameter: die Anzahl der Schätzer und die Lernrate. Ersteres stellt die Anzahl der Boosting-Stufen dar, wobei eine große Anzahl häufig zu einer besseren Leistung führt, während sich Letzteres auf eine Konstante bezieht, die den Beitrag jedes Baums zum Modell steuert. Es gibt oft einen Kompromiss zwischen der Lernrate und der Anzahl der Schätzer (n-Schätzer), wodurch diese beiden wichtigsten Parameter für den Algorithmus sind.

Die gestapelte Generalisierung ist ein Ansatz zur Minimierung der Generalisierungsfehlerrate eines oder mehrerer Generalisierer. Bei einem gegebenen Lernsatz leitet die gestapelte Generalisierung die Verzerrungen der Generalisierer aus den folgenden Schritten ab: Erstellen einer Partition des Lernsatzes, Training auf einem Teil der Partition und anschließendes Beobachten des Verhaltens auf dem anderen Teil. Für ein gestapeltes Modell mit mehreren Generalisierern bietet es eine ausgefeiltere Strategie als die Kreuzvalidierungs-Winner-takes-all-Strategie zum Kombinieren der einzelnen Generalisierer53.

Unsere Daten offenbaren ein „unausgeglichenes Datenproblem“, ein Begriff, der sich auf eine asymmetrische Verteilung von Daten über Klassen hinweg bezieht38. Die meisten Algorithmen für maschinelles Lernen schneiden bei unausgeglichenen Daten nicht gut ab, da die wenigen Fälle weniger zur Minimierung der Zielfunktion beitragen. Um das Problem der Klassenungleichheit anzugehen, passen wir SMOTE37 und seine Varianten an unsere Umgebung an. Dabei handelt es sich um eine Technik zur Überabtastung der Minderheitenklasse, bei der es sich um die Herstellung „synthetischer“ Beispiele statt um eine Überabtastung mit Ersatz handelt. Die synthetischen Beispiele werden unter Verwendung euklidischer Abstände zwischen nächsten Nachbarn erstellt. Der Prozess umfasst: (1) Berechnen des Abstands zwischen dem Merkmalsvektor und seinen nächsten Nachbarn; (2) Multiplizieren Sie diese Differenz mit einer Zufallszahl zwischen 0 und 1 und addieren Sie sie zum Merkmalsvektor. Mathematisch:

Anschließend werden die Daten ausgeglichen, indem kontinuierlich synthetische Punkte zwischen Minderheitsstichproben und benachbarten Datenpunkten eingefügt werden. Diese Strategie führt effektiv dazu, dass der Auswahlbereich der Minderheitsklasse allgemeiner wird41. Da SMOTE in seiner ursprünglichen Form besser für numerische Daten geeignet ist, verwenden wir in unseren Daten seine Variante SMOTENC, die mit kategorialen Variablen umgehen kann. Die Kategorien neu generierter Beispiele werden bei dieser Variationstechnik bestimmt, indem die häufigste Kategorie unter den nächsten Nachbarn ausgewählt wird, die während der gesamten Generation vorhanden sind. Ein vollständig ausgeglichener Datensatz, der ausschließlich von SMOTENC generiert wird, ist möglicherweise nicht optimal, insbesondere für stark verzerrte Klassenverteilungen mit extrem spärlichen Minderheitenklassenstichproben, was zu einem Klassenmischungsproblem führt. Darüber hinaus ist es notwendig, die verrauschten Instanzen zu bereinigen, die durch die Interpolation zwischen marginalen Ausreißern und Inliern entstehen. Um die oben genannten Schwierigkeiten anzugehen, haben wir SMOTENC mit zwei Undersampling-Techniken zusammengeführt: Tomeks Links (TomekLinks) und bearbeitete nächste Nachbarn (ENN), um seine Wirksamkeit im Umgang mit unausgeglichenen Klassenverteilungen zu verbessern. Eine ausgefeiltere Strategie integriert die Mehrheitsunterabtastung in einen Klassifikator, was zu einem Ensemblemodell führt. Beispielsweise wurde zufällige Unterabtastung in Boosting und Bagging integriert und auf beide Klassen in einer baumbasierten Methode namens Balanced Random Forest54 angewendet, die für jeden Baum des Waldes eine ausgewogene Bootstrap-Stichprobe liefert.

Um das Fast-Computing-Experiment durchzuführen, wählen wir zufällig 50.000 Zeilen durch geschichtete Stichproben aus den Marketplace-Eintragsdaten aus, um eine unvoreingenommene Darstellung aller Untergruppen sicherzustellen. Da sich unsere Experimente auf den Aufbau eines Betrugserkennungsmodells konzentrieren, das aus numerischen und kategorialen Merkmalen besteht, besteht unser erster Schritt darin, aus den Eintragsdaten eine Pipeline dieser Merkmale zu entwickeln und sie mit demografischen Daten, Verhaltensdaten und Transaktionsverläufen der Marktplatz-Kontoinhaber abzugleichen. Für die Experimente 1 und 2 folgt auf diesen Schritt eine weitere Pipeline, die die Daten bereinigt, indem sie Duplikate, fehlende Werte und Ausreißer verarbeitet, kategoriale Variablen codiert und kontinuierliche Features skaliert. In den Experimenten 3 und 4 fügen wir eine weitere Pipeline hinzu, die die Auflösung der Klassenasymmetrie durch die Anwendung von Oversampling- und/oder Undersampling-Techniken durchführt, um ein Gleichgewicht zwischen den Verhältnissen der Minderheits- und Mehrheitsklassen zu schaffen. Die letzte Pipeline führt das Training, die Hyperparameteroptimierung und die Auswertung der Klassifikatoren aus. Die folgenden Tabellen 4 und 5 zeigen die Hyperparameter, die zur Optimierung jedes Klassifikators verwendet werden, und die Bewertungsmetriken, die zur Bewertung der Leistung jedes Klassifikators angewendet werden.

Tabelle 4 unten zeigt die Liste der Klassifikatoren, die wir in unseren Experimenten verwenden, und die jeweiligen Hyperparameter, die wir zur Optimierung ihrer Leistung verwenden.

Für jeden der sieben Klassifikatoren werden die Daten in k-Gruppen aufgeteilt, in unserem Fall (k = 5), wobei die Wahl des Werts von k durch die Literaturrecherche bestimmt wird.

Für jede Trainingsiteration werden k-1 Gruppen der Daten für das Training verwendet, während der Rest für die Validierung verwendet wird. Die Gruppen werden erstellt, wobei die Zusammensetzung der Klassen für unsere binäre Problemstellung erhalten bleibt, und jeder Klassifikator wird k-mal trainiert.

Mit k = 5 haben wir eine fünffache Kreuzvalidierung. Die Daten sind in 5 Sätze unterteilt (siehe Abb. 4 unten): Satz 1, Satz 2, Satz 3, Satz 4 und Satz 5. Der Algorithmus wird fünfmal trainiert. In der ersten Iteration werden die Sätze 1 bis 4 als Trainingssatz verwendet, während Satz 5 als Validierungssatz verwendet wird. In der zweiten Iteration werden die Sätze 1, 2, 3 und 5 als Trainingssatz und Satz 4 als Testsatz verwendet. Dieser Vorgang wird wiederholt, bis alle Sets zum Training und Testen verwendet wurden. Die Daten werden vor jeder Teilung zufällig gemischt, um Fehler bei der Stichprobenauswahl zu minimieren. Die Fähigkeiten jedes Algorithmus werden durch einen Abstimmungsmechanismus über alle Iterationen hinweg zusammengefasst, gemessen an ihren jeweiligen Validierungswerten im Validierungssatz.

Wiederholtes geschichtetes k-faches Kreuzvalidierungsverfahren, das auf jeden Klassifizierungsalgorithmus angewendet wird.

Der Holdout-Satz wird dann verwendet, um die Leistung des trainierten Klassifikators auf eine Weise zu testen, die die Produktionsumgebung nachahmt, wie in Abb. 4 unten dargestellt:

Schließlich verwenden wir die unten beschriebenen Bewertungsmetriken, um die Leistung aller Klassifikatoren zu bewerten.

In der Literatur in diesem Bereich45 wird die Verwendung der in Tabelle 5 unten aufgeführten Bewertungsmetriken empfohlen. Wir legen jedoch mehr Wert auf die Rückrufaktion, die das Erkennen böswilliger Akteure optimiert und falsch-negative Ergebnisse (fälschliche Vorhersage verdächtiger Einträge als nicht verdächtig) minimiert. Die in der Formelspalte unten verwendeten Bezeichnungen tp, tn, fp und fn haben ihre reguläre Bedeutung im Klassifizierungskontext.

Darüber hinaus zeichnen wir ROC-AUC-Kurven als weiteres Leistungsmaß auf. Dies ist wichtig, da einige Messungen, wie z. B. die Genauigkeit, bei unausgeglichenen Datensätzen unzuverlässig sind.

Wir implementieren das experimentelle Verfahren auf Basis der Programmiersprache Python mit Scikit–Learn in Kombination mit anderen gängigen Python-Bibliotheken wie NumPy, Pandas, Matplotlib, Seaborn und SciPy. Für die Datenerfassung und den Datenabruf verwenden wir eine strukturierte Abfragesprache (SQL), um Hive-Tabellen abzufragen, in denen die Daten ursprünglich gespeichert wurden.

In diesem Abschnitt werden die wichtigen Erkenntnisse unserer Experimente zusammengefasst und diskutiert. Die Ergebnisse basieren auf einer 80:20-Aufteilung der Daten, die zum Trainieren und Validieren der Klassifikatoren verwendet werden. Darüber hinaus bewerten wir die Leistung der Klassifikatoren anhand eines neuen Datensatzes, den die Klassifikatoren noch nie zuvor gesehen haben (Out-of-Sample-Testsatz), und simulieren so die Produktionsrealität. Der Rest dieses Teils stellt die wichtigsten Ergebnisse vor und diskutiert sie, um wichtige Erkenntnisse zu gewinnen, die eine praktische Anwendung dieses Rahmenwerks bei realen Problemen ermöglichen.

Ein wiederholter geschichteter K-Kreuz-Validierungsansatz wird verwendet, um die Leistung jedes Klassifikators für den unausgeglichenen Datensatz zu bewerten. Basierend auf unseren Bewertungsmetriken stellen wir fest, dass das Gaussian Naive Bayes-Modell zwar den höchsten Recall (0,954) aller getesteten Modelle aufweist, einschließlich des gestapelten Generalisierungsmodells, aber bei der Vorhersage wahrer positiver Instanzen schlechter abschneidet und die niedrigste Genauigkeit (0,40) aufweist. GNB geht davon aus, dass alle Merkmale unabhängig voneinander sind. Angesichts der Art unserer Daten trifft diese Annahme jedoch möglicherweise nicht zu, und daher können die niedrigen Ergebnisse für einige Metriken durch die Verletzung dieser kritischen Annahme erklärt werden. Insgesamt übertreffen baumbasierte Klassifizierungsmodelle in diesem Zusammenhang andere, und das Random-Forest-Klassifizierungsmodell erreicht den höchsten F1-Score aller eigenständigen Modelle (Mittelwert 0,920 vor Hyperparameter-Tuning), der nach Hyperparameter-Tuning auf 0,946 steigt. Die Leistung des RF-Modells stimmt mit der Literatur überein7. Während diese Ergebnisse auf der Grundlage der In-Sample-Validierung sehr vielversprechend aussehen, lässt sich der eigentliche Test eines Klassifikators am besten mit einem Datensatz außerhalb der Stichprobe durchführen. Um Vorhersageinstanzen in der Produktionsumgebung zu simulieren, nehmen wir daher eine neue Datenprobe (die wir im Training noch nie gesehen haben) von der Marktplatzplattform auf und treffen darauf Vorhersagen. Wir präsentieren die Ergebnisse für Vorhersagen zu diesen Out-of-Sample-Daten in der folgenden Tabelle 6. Unsere Ergebnisse deuten darauf hin, dass bei allen Klassifikatoren Leistungseinbußen auftreten, wenn auch in unterschiedlichem Ausmaß, insbesondere in Bezug auf Präzision, Rückruf und F1-Werte. Laut Literaturrecherche gehen wir davon aus, dass diese Art von Leistungseinbußen aufgrund der Häufigkeit auftretender Änderungen in der Betrugsumgebung auftritt. Betrüger entwickeln ihr Verhalten, um nicht erwischt zu werden, und daher verliert das Betrugserkennungssystem mit der Zeit seine Fähigkeit, betrügerische Fälle aufzudecken. Diese Feststellung besagt, dass das Erkennungsmodell regelmäßig neu trainiert werden muss, um aufkommende Betrugsfälle zu erkennen. In Übereinstimmung mit den Ergebnissen der In-Sample-Bewertung stellen wir fest, dass baumbasierte Algorithmen den Rest übertreffen.

Wir gehen davon aus, dass die Korrektur unausgeglichener Klassen in unserem Kontext das Lernen und letztendlich die Leistung unserer Klassifikatoren verbessern könnte. Unter dieser Prämisse wenden wir ausgewählte Klassen-Rebalancing-Techniken an, die auf der Literatur basieren und im Abschnitt „Datenerweiterung“ beschrieben werden. Auf hohem Niveau testen wir datenbasierte und algorithmische Ansätze zur Ausbalancierung unserer Klassen. Auf Datenebene testen wir ROS, SMOTENC, SMOTENC + ENN und SMOTENC + TomekLinks, während wir auf algorithmischer Ebene die Algorithmen EasyEnsemble und Balanced Random Forest testen. Wir folgen dem gleichen Bewertungsansatz wie im obigen Abschnitt und verwenden sowohl In- als auch Out-Sample-Daten, um die Leistung jeder Methode zu überprüfen.

Im Allgemeinen zeigen unsere Ergebnisse, dass der Ansatz auf Datenebene zur Neuverteilung von Klassen den algorithmischen Ansatz übertrifft. Dieser Befund steht im Einklang mit dem, was wir in unserer Literaturrecherche gefunden haben. Unter den Methoden auf Datenebene übertrifft ROS alle anderen Methoden und erreicht über alle Klassifizierungsalgorithmen hinweg eine Verbesserung von 92,5 % mit dem In-Sample-Satz und fast 70 % mit dem Out-of-Sample-Satz. SMOTENC, SMOTENC + ENN und SMOTENC + TomekLinks erreichen eine identische Leistung: 90 % mit In-Sample-Daten und fast 55 % mit Out-of-Sample-Daten. In Bezug auf die Kombination aus Klassifikator und Rebalancing-Technik erzielt der Random Forest insgesamt die beste Leistung, wenn er bei allen Rebalancing-Techniken bei allen Leistungsbewertungsmetriken und sowohl bei In-Sample- als auch bei Out-of-Sample-Daten eine positive Verbesserung verzeichnet. Der SG-Klassifikator folgt hinsichtlich der Gesamtleistung dicht dahinter. Alle anderen Klassifikatoren verzeichnen an allen Vergleichspunkten keine bis mäßige Verbesserung. Spezifische Details der Leistung zeigen wir in der folgenden Abbildung 5.

Leistungsverbesserung, die von jedem Klassifikator für eine gegebene Klassen-Rebalancing-Technik auf Datenebene (Out-of-Sample-Bewertung) erreicht wird.

Wie in unserer Problemstellung und unseren Zielen dargelegt, besteht das Ziel in einer Betrugsumgebung darin, alle böswilligen Akteure zu fangen, da sie den Ruf der Marktplatzplattform am stärksten schädigen oder Verluste verursachen. Aus diesem Grund gehen wir eher davon aus, die Erinnerungswerte im Vergleich zu den anderen Leistungsmetriken zu optimieren. Vor diesem Hintergrund und beim Vergleich der durch den Ansatz auf Datenebene erzielten Erinnerungswerte mit dem algorithmischen Ansatz übertrifft der algorithmische Ansatz (der Balanced Random Forest-Algorithmus) die beste Kombination aus Methode und Klassifikator auf Datenebene. Es erreicht einen Top-Recall-Score von 97,5 % bei In-Sample-Daten und 94,9 % bei Out-of-Sample-Daten, gegenüber 92,8 % bzw. 81,9 %. Weitere Details der obigen Diskussion zeigen wir in den Tabellen 7 und 8, wo wir die insgesamt leistungsstärksten Klassifikatoren (RF und SG) und ihre verschiedenen Kombinationen mit Techniken zur Neuverteilung von Klassen auf Datenebene zeigen. Wir tun dies, um zu zeigen, wie sie im Vergleich zu algorithmischen Ansätzen abschneiden.

Insgesamt erfahren wir, dass bei der Umsetzung des vorgeschlagenen Rahmenwerks wichtige Überlegungen angestellt werden müssen, um in diesem Bereich Spitzenleistungen zu erzielen. Zunächst muss die Auswahl potenzieller Funktionen mithilfe festangestellter Fachexperten sorgfältig getroffen werden. Zweitens verbrauchen Algorithmen für maschinelles Lernen Trainingsdaten in verschiedenen Formaten. Daher müssen geeignete Vorverarbeitungstechniken auf die Daten angewendet werden, bevor sie den Algorithmen zugeführt werden. Die Wahl der Vorverarbeitungstechnik hängt vom Eingabeformat ab (z. B. kategorisch, Text, Bild usw.). Die Feature-Transformation ist in diesem Bereich von entscheidender Bedeutung. Dadurch wird das Lernen effizienter, das Modell konvergiert schneller und spart eine Menge Kosten für Rechenressourcen. Es schafft außerdem ein einheitliches Aufnahmeformat und eine Vergleichsbasis zwischen den Klassifikatoren. Drittens muss das Ungleichgewicht zwischen den Klassen angegangen werden. Die Erweiterung auf Datenebene führt zu einem vielfältigeren Satz von Stichproben und ist flexibler als die Datenerweiterung auf algorithmischer Ebene. Schließlich handelt es sich bei organisiertem Einzelhandelsbetrug um eine hochdynamische Betrugsart. Sobald das leistungsstärkste Modell ausgewählt und in Produktion genommen wurde, sollte es daher regelmäßig neu geschult werden, um mögliche Abweichungen zu beheben. Im Abschnitt „Funktionsbedeutung“ stellen wir zusätzliche Details zu Studienherausforderungen bereit und wie wir sie angegangen sind.

Modelle des maschinellen Lernens können oft als „Black Box“ angesehen werden. Wir nehmen einige Merkmale als Eingabe und erzeugen einige Vorhersagen als Ausgabe. Nach dem Training eines maschinellen Lernmodells fragen wir uns oft, wie sich verschiedene Merkmale auf die Vorhersageergebnisse auswirken, welche Merkmale die Vorhersageergebnisse am stärksten beeinflussen und ob wir der beobachteten guten Leistung vertrauen sollten. Daher spielt die Erklärbarkeit von Modellen eine wichtige Rolle beim maschinellen Lernen. Es gibt mehrere Techniken zur Erklärung von Modellen. In unserer Forschung verwenden wir den SHAP-Werte-Ansatz, der derzeit als modernste Erklärungstechnik für maschinelle Lernmodelle gilt. SHAP steht für „Shapley Additive ExPlanations“. Shapley-Werte sind ein häufig verwendeter Ansatz in der kooperativen Spieltheorie. Im Wesentlichen messen sie die Beiträge jedes einzelnen Spielers innerhalb der Koalition zum Endergebnis, wobei die Summe der Beiträge gleich dem Endergebnis bleibt. Wenn wir SHAP-Werte in der Modellerklärung verwenden, können wir den Beitrag der Eingabemerkmale zu einzelnen Vorhersagen messen. Wir werden nicht auf die komplexen Formeln eingehen, die zur Berechnung der SHAP-Werte verwendet werden, aber weitere Einzelheiten finden Sie in55. Um die SHAP-Werte der Features in unserem leistungsstärksten Klassifikator zu erhalten, verwenden wir die SHAP-Python-Bibliothek. Durch die Verwendung von SHAP-Werten erhalten wir eine globale Interpretierbarkeit unseres Modells. Sie zeigen nicht nur die Wichtigkeit des Merkmals, sondern auch, ob das Merkmal einen positiven oder negativen Einfluss auf die Vorhersagen hat. SHAP-Werte bieten auch lokale Interpretierbarkeit und geben uns die Möglichkeit zu sehen, wie die Features zu einer einzelnen Vorhersage beitragen. Andere Methoden zeigen nur aggregierte Ergebnisse über den gesamten Datensatz.

Bei dieser Untersuchung beginnen unsere Bemühungen zur Erkennung von Funktionen damit, dass die Domänenexperten den ersten Satz von Variablen generieren, die möglicherweise Einfluss auf die Erkennung betrügerischer Vorfälle haben. Wir wenden diese Funktionen in unserer experimentellen Umgebung an, um die beste Kombination aus abgestimmtem Klassifikator und klassenasymmetrischer Auflösung zu finden. Sobald wir das beste Modell ausgewählt haben, führen wir eine Ablationsanalyse durch, um die Rolle der einzelnen Merkmale herauszufinden. Zur Erinnerung: Unsere anfänglichen Funktionen gruppieren sich um vier große Gruppen, nämlich: (1) produktbezogene, (2) benutzerbezogene, (3) interaktionsbezogene und (4) produktbezogene Funktionen. Unsere Analyse zeigt, dass jede Feature-Gruppe zur endgültigen Liste wichtiger Features beiträgt. In Abb. 6 zeigen wir unsere Merkmale, ihre Bedeutung und ihre Auswirkungen auf den Datensatz.

Eine Zusammenfassung der einflussreichsten Funktionen bei der Erkennung betrügerischer Vorfälle.

Dieses Punktdiagramm visualisiert die Richtungsabhängigkeit der Features. Die x-Achse zeigt den SHAP-Wert (Auswirkung auf die Modellausgabe) und die y-Achse zeigt die Namen der Features. Jeder Punkt im Diagramm ist ein SHAP-Wert für eine Vorhersage und ein Feature. Rot bedeutet einen höheren Wert eines Merkmals und Blau bedeutet einen niedrigeren Wert eines Merkmals. Aus dem Diagramm können wir beispielsweise ableiten, dass ein höherer Wert von „median_bsg_size“ (mittlere Größe des Käufers/Händlers/Verkäufers, der dem Benutzer zugeordnet ist) in hohem Maße mit einer betrügerischen Vorhersage verbunden ist, und ein niedrigerer Wert von „Alter“ des Benutzer wird in hohem Maße mit betrügerischen Vorhersagen in Verbindung gebracht. Aus der Verteilung der roten und blauen Punkte können wir einen allgemeinen Eindruck von der Wirkungsrichtung der Merkmale ableiten. Im Wesentlichen können wir intuitiv erkennen, wie das Modell die Funktionen nutzt, um seine Vorhersagen zu betrügerischen Vorfällen zu treffen.

Mit dem Diagramm der globalen Merkmalsbedeutung in Abb. 7 zeigen wir die zehn wichtigsten Merkmale, die unserem Modell dabei helfen, bei der Erkennung betrügerischer Fälle eine Spitzenleistung zu erzielen. Ein positiver SHAP-Wert bedeutet eine positive Auswirkung auf die Vorhersage, was dazu führt, dass das Modell einen betrügerischen Fall vorhersagt, während ein negativer SHAP-Wert eine negative Auswirkung bedeutet, was dazu führt, dass das Modell einen nicht betrügerischen Fall vorhersagt. Die Merkmale werden danach geordnet, wie stark sie die Vorhersage des Modells beeinflusst haben. Die x-Achse zeigt den Durchschnitt des absoluten SHAP-Werts jedes Merkmals, wobei höhere Werte auf eine höhere Bedeutung hinweisen.

Die zehn wichtigsten Merkmale, die die Erkennung betrügerischer Vorfälle beeinflussen.

Angesichts der sequentiellen Natur unserer Daten waren wir besorgt über das Risiko von Datenlecks, die beim maschinellen Lernen auftreten, wenn Modelle Wissen über die Daten einbeziehen, auf deren Grundlage sie zuvor trainiert wurden56. Wir haben das Risiko von Datenlecks angegangen, indem wir während der Datenvorverarbeitung mithilfe der explorativen Datenanalyse und der Predictive Power Score-Matrix undichte Merkmale erkannt haben. Wir stellten die zeitliche Ausrichtung von Angeboten und Verkäufermerkmalen sicher, um die Verwendung zukünftiger Daten beim Training der Klassifikatoren zu vermeiden. Testdaten außerhalb der Stichprobe wurden verwendet, um die Leistung des Modells zu bewerten und die Lösung potenzieller Leckprobleme zu bestätigen.

Zu den Einschränkungen unserer Forschungsarbeit gehören bekannte Verzerrungen in den Markteintragsdaten, wie z. B. eine demografische Ausrichtung auf junge Menschen in den USA, und Probleme mit der Datenqualität. Ausgelassene oder nicht ordnungsgemäß erfasste Daten stellen eine Herausforderung für die Datenbereinigung und -integration dar. Zukünftige Arbeiten könnten sich auf die Untersuchung dieser Probleme und die Entwicklung fortschrittlicher Datenimputationsmethoden konzentrieren.

Die Anpassung von Filteralgorithmen an die sich entwickelnden betrügerischen Aktivitäten im E-Commerce-Markt ist eine Herausforderung, insbesondere für Verkäufer mit geringem Volumen. Das Aggregieren von Betrugsvorhersagen von der Angebotsebene bis zur Verkäuferebene erfordert manuelle Prozesse und angepasste Regeln. Eine kontinuierliche Neuschulung des automatisierten Betrugserkennungssystems ist erforderlich, um die Leistung angesichts neuer betrügerischer Verhaltensweisen aufrechtzuerhalten57. Bei zukünftigen Implementierungen sollte die Behebung von Daten- oder Konzeptabweichungen in Betracht gezogen werden, um Leistungsprobleme anzugehen.

Unser erster Funktionsumfang basiert auf Gesprächen mit Branchenexperten zum Thema organisierter Einzelhandelsbetrug, hauptsächlich aus der nordamerikanischen Region. Obwohl Anstrengungen unternommen wurden, um regionale Informationsverzerrungen abzumildern, können einige Verzerrungen aufgrund von Unterschieden in der Textzusammensetzung und -semantik zwischen den Regionen immer noch bestehen. Wir mildern diese Einschränkung jedoch durch die Verwendung von übergeordneten physischen Attributen des Titels und der Beschreibung des Eintrags. Sondierungsergebnisse deuten darauf hin, dass Einträge mit einer höheren Anzahl von Zeichen mit größerer Wahrscheinlichkeit Produkte des organisierten Einzelhandelsbetrugs enthalten, was mit früheren Forschungsergebnissen übereinstimmt58.

Die organisierte Kriminalität im Einzelhandel ist ein anhaltendes Cybersicherheitsproblem für E-Commerce-Plattformen wie Meta's Marketplace und eBay. Da immer mehr Daten zu Benutzerattributen und Transaktionsverläufen verfügbar sind, wird es immer schwieriger, betrügerische Handlungen mithilfe von Filterregeln sowie der Suche und Verfeinerung von Schlüsselwörtern zu erkennen. In unserer Forschung haben wir eine automatisierte Betrugserkennungsmethode zur Erkennung möglicher Betrugsfälle im Bereich der organisierten Einzelhandelskriminalität mithilfe eines überwachten maschinellen Lernansatzes vorgeschlagen. Wir haben gezeigt, dass unser System frühere Systeme, die auf regelbasierten und unüberwachten Lernansätzen basieren, hinsichtlich Vorhersagegenauigkeit und Wirksamkeit übertrifft. Nach unserem besten Wissen wurde dieser Ansatz nicht in ORC-Umgebungen angewendet, und wo er in anderen Kontexten angewendet wurde, wurden in den meisten Fällen nur einstufige Versuche zur Datenverarbeitung und/oder zum unausgeglichenen Lernen verwendet. In unserem Fall haben wir gezeigt, wie man ein Modellierungssystem zur Betrugserkennung optimieren kann, indem man durch die Kombination von fachkundiger Funktionserkennung, maßgeschneiderter Datenverarbeitung, unausgewogenem Lernen, Funktions- und Modellauswahl, angepasster Einrichtung von Hyperparametern und geschäftsorientierten Bewertungsmetriken den neuesten Stand der Technik erreicht. eine hochmoderne Performance. In dieser Arbeit haben wir hauptsächlich numerische und kategoriale Merkmale verwendet. Zukünftige Arbeiten können sich auf die Verwendung eines multimodalen Funktionsumfangs (Kombination aus numerischen, Text- und Bilddaten) zum Trainieren der Algorithmen konzentrieren. Diese zusätzlichen Funktionen könnten möglicherweise eine höhere oder ähnliche Leistung erzielen, ohne unbedingt stark auf ORC-Domänenexperten angewiesen zu sein.

Die im Rahmen der aktuellen Studie generierten und/oder analysierten Datensätze sind aufgrund sensibler Informationen nicht öffentlich zugänglich, können aber auf begründete Anfrage beim entsprechenden Autor angefordert werden.

Maschinelles Lernen

Organisierte Einzelhandelskriminalität

Fälle von Einzelhandelsdiebstahl

Logistische Regression

k-nächster Nachbar

Support-Vektor-Maschine

Klassifizierungs- und Regressionsbaum

Zufälliger Wald

Gaußsche naive Bayes

Gradientenverstärkung

Ausgewogener Zufallswald

Gestapelte Verallgemeinerung

Modell zur Betrugserkennung

Synthetische Minderheits-Oversampling-Technik

Synthetische Minderheits-Oversampling-Technik für nominal und kontinuierlich

Kreuzvalidierung

Explorative Datenanalyse

Wirklich positiv

Echt negativ

Falsch positiv

Falsch negativ

Monteith, S. et al. Zunehmende Cyberkriminalität seit der Pandemie: Sorgen für die Psychiatrie. Psychiatrie-Ziffer. Alter https://doi.org/10.1007/s11920-021-01228-w/Published (2021).

Artikel Google Scholar

Kodate, S., Chiba, R., Kimura, S. & Masuda, N. Erkennung problematischer Transaktionen in einem Consumer-to-Consumer-E-Commerce-Netzwerk. Appl. Netw. Wissenschaft. https://doi.org/10.1007/s41109-020-00330-x (2020).

Artikel Google Scholar

Hasham, S. & Mikkelsen, D. Finanzkriminalität und Betrug im Zeitalter der Cybersicherheit. https://www.mckinsey.com/~/media/McKinsey/Business%20Functions/Risk/Our%20Insights/Financial%20crime%20and%20fraud%20in%20the%20age%20of%20cybersecurity/Financial-crime-and- betrug-in-the-age-of-cybersecurity.pdf (2019).

Samani, R. & Davis, G. McAfee Mobile Threat Report. https://www.mcafee.com/enterprise/en-us/assets/reports/rp-mobile-threat-report-2019.pdf (2019)

Bolton, RJ & Hand, DJ Statistische Betrugserkennung: Ein Rückblick. Stat. Wissenschaft. 17(3), 235–255. https://doi.org/10.1214/ss/1042727940 (2002).

Artikel MathSciNet MATH Google Scholar

Phua, C., Lee, V., Smith, K. und Gayler, R. Eine umfassende Übersicht über die auf Data Mining basierende Forschung zur Betrugserkennung. doi: https://doi.org/10.1016/j.chb.2012.01.002 (2010)

Abdallah, A., Maarof, MA & Zainal, A. Betrugserkennungssysteme: Eine Umfrage. J. Netzwerk. Computer. Appl. 68, 90–113. https://doi.org/10.1016/jnca.2016.04.007 (2016).

Artikel Google Scholar

Akoglu, L., Tong, H. & Koutra, D. Diagrammbasierte Anomalieerkennung und -beschreibung: eine Umfrage. Daten min. Wissen. Entdeckung. 29(3), 626–688. https://doi.org/10.1007/s10618-014-0365-y (2015).

Artikel MathSciNet Google Scholar

Irani, D., Webb, S. & Pu, C. Studie zur statischen Klassifizierung von Social-Spam-Profilen in MySpace. In Proceedings of the International AAAI Conference on Web and Social Media, vol. 4, nein. 1, S. 82–89. https://ojs.aaai.org/index.php/ICWSM/article/view/14017 (2010)

Bhowmick, A. & Hazarika, SM (2016) Maschinelles Lernen für die E-Mail-Spam-Filterung: Rückblick, Techniken und Trends. [cs], http://arxiv.org/abs/1606.01042

Savage, D., Zhang, X., Yu, X., Chou, P. & Wang, Q. Anomalieerkennung in sozialen Online-Netzwerken. Soc. Netw. 39, 62–70. https://doi.org/10.1016/j.socnet.2014.05.002 (2014).

Artikel Google Scholar

NRF. Stand des Einzelhandels und des Verbrauchers (NRF, 2021).

Google Scholar

Puh, M. & Brkić, L. Erkennung von Kreditkartenbetrug mithilfe ausgewählter Algorithmen für maschinelles Lernen. Im Jahr 2019 42. Internationale Tagung über Informations- und Kommunikationstechnologie, Elektronik und Mikroelektronik, MIPRO 2019 – Proceedings, S. 1250–1255, https://doi.org/10.23919/MIPRO.2019.8757212 (2022)

Reid, S., Vance, P., Coleman, S., Kerr, D. & O'Neill, S. Visuelle Signale zur Ladendiebstahlvorhersage. Muster 2021. 37–42 (2021)

Prasad, A., Iverson, L. & Liaw, A. Neuere Klassifizierungs- und Regressionsbaumtechniken: Bagging und zufällige Wälder für ökologische Vorhersagen. Ökosysteme 2, 181–199 (2006).

Artikel Google Scholar

Dong, W., Liao, S. & Liang, L. Erkennung von Finanzberichtsbetrug mithilfe von Text Mining: Eine Theorieperspektive der systemischen funktionalen Linguistik. In Pacific Asia Conference on Information Systems, PACIS 2016 – Proceedings, (2016)

Chang, J.-S. & Chang, W.-H. Analyse betrügerischer Verhaltensstrategien bei Online-Auktionen zur Erkennung latenter Betrüger. Elektron. Kommer. Res. Appl. 13(2), 79–97. https://doi.org/10.1016/j.elerap.2013.10.004 (2014).

Artikel Google Scholar

Aleem, A. & Antwi-Boasiako, A. Betrug bei Online-Auktionen: Die sich entwickelnde Natur der Kriminalität bei Online-Auktionen und der mildernde Rahmen zur Bekämpfung der Bedrohung. Int. J. Law Crime Justice 39(3), 140–160. https://doi.org/10.1016/j.ijlcj.2011.05.003 (2011).

Artikel Google Scholar

Chau, DH, Pandit, S. & Faloutsos, C. Erkennung betrügerischer Persönlichkeiten in Netzwerken von Online-Auktionatoren. In in Lecture Notes in Computer Science (Hrsg. Fürnkranz, J. et al.) 103–114 (Springer, 2006). https://doi.org/10.1007/11871637_14.

Kapitel Google Scholar

Chang, W.-H. & Chang, J.-S. Ein neuartiges zweistufiges, phasenweises Modellierungsrahmenwerk zur Früherkennung von Betrug bei Online-Auktionen. Experte. Syst. Appl. 38(9), 11244–11260. https://doi.org/10.1016/j.eswa.2011.02.172 (2011).

Artikel Google Scholar

Dong, F., Shatz, SM & Xu, H. Bekämpfung von Online-Auktionsbetrug: Hinweise, Techniken und Herausforderungen. Berechnen. Wissenschaft. Rev. 3(4), 245–258. https://doi.org/10.1016/j.cosrev.2009.09.001 (2009).

Artikel MATH Google Scholar

Maranzato, R., Pereira, A., do Lago, AP, & Neubert, M. Betrugserkennung in Reputationssystemen in E-Märkten mithilfe logistischer Regression. In Proceedings of the ACM Symposium on Applied Computing, 1454–1459, doi: https://doi.org/10.1145/1774088.1774400 (2010)

Chau DH und Faloutsos C. Betrugserkennung in der elektronischen Auktion. Zugriff am 20. April 2023. https://www.researchgate.net/publication/249906880 (2005)

Ku, Y., Chen, Y. & Chiu, C. Ein vorgeschlagener Data-Mining-Ansatz zur Erkennung von Internetauktionsbetrug. In „Vorlesungsunterlagen zur Informatik“ (einschließlich der Unterreihen „Vorlesungsunterlagen zur Künstlichen Intelligenz“ und „Vorlesungsunterlagen zur Bioinformatik“), Bd. 4430 LNCS, S. 238–243, https://doi.org/10.1007/978-3-540-71549-8_22/COVER (2007)

Almendra, V. Die Nadel finden: Ein risikobasiertes Ranking von Produktangeboten auf Online-Auktionsseiten zur Vorhersage von Nichtlieferungsbetrug. Experte. Syst. Appl. 40(12), 4805–4811. https://doi.org/10.1016/J.ESWA.2013.02.027 (2013).

Artikel Google Scholar

Tsang, S., Koh, YS, Dobbie, G. & Alam, S. Erkennung von Shilling-Betrug bei Online-Auktionen mithilfe überwachten Lernens. Experte. Syst. Appl. 41(6), 3027–3040. https://doi.org/10.1016/J.ESWA.2013.10.033 (2014).

Artikel Google Scholar

Du, G. et al. Auf dem Weg zu graphbasiertem Klassenungleichgewichtslernen für die Wiederaufnahme in Krankenhäuser. Experte. Syst. Appl. https://doi.org/10.1016/j.eswa.2021.114791 (2021).

Artikel Google Scholar

Ochaeta, K. Betrugserkennung für Internetauktionen: Ein Data-Mining-Ansatz (2008)

Dong, W., Liao, SS, Fang, B., Cheng, X., Chen, Z. & Fan, W. Die Erkennung betrügerischer Finanzberichte: Ein integriertes Sprachmodell. (2014)

Goel, S., Gangolly, J., Faerman, SR & Uzuner, O. Können linguistische Prädiktoren betrügerische Finanzunterlagen erkennen? J. Emerg. Technol. Konto. 7(1), 25–46. https://doi.org/10.2308/JETA.2010.7.1.25 (2010).

Artikel Google Scholar

. Almendra, V. & Enǎchescu, D. Ein überwachter Lernprozess zur Ermittlung von Betrugsfällen auf Online-Auktionsseiten. In Proceedings – 13. Internationales Symposium über symbolische und numerische Algorithmen für das wissenschaftliche Rechnen, SYNASC 2011, 168–174. https://doi.org/10.1109/SYNASC.2011.15 (2011)

Shah, H., Undercoffer, J. & Joshi, A. Fuzzy-Clustering zur Einbruchserkennung. IEEE Int. Konf. Fuzzy-System. 2, 1274–1278. https://doi.org/10.1109/FUZZ.2003.1206614 (2003).

Artikel Google Scholar

Bapna, R., Goes, P., Gupta, A. & Jin, Y. Benutzerheterogenität und ihre Auswirkungen auf das Design des elektronischen Auktionsmarktes: Eine empirische Untersuchung. MIS Q. 28(1), 21–43. https://doi.org/10.2307/25148623 (2004).

Artikel Google Scholar

Hou, J. & Rego, C. Eine Klassifizierung von Online-Bietern in einer privaten Wertauktion: Beweise von eBay. Int. J. Electron. Markt. Einzelhandel. 1(4), 322–338. https://doi.org/10.1504/IJEMR.2007.014847 (2007).

Artikel Google Scholar

Ba, S., Whinston, AB & Zhang, H. Aufbau von Vertrauen in Online-Auktionsmärkten durch einen wirtschaftlichen Anreizmechanismus. Entscheidung. Unterstützung. Syst. 35(3), 273–286. https://doi.org/10.1016/S0167-9236(02)00074-X (2003).

Artikel Google Scholar

Adewumi, AO & Akinyelu, AA Eine Umfrage zu maschinellem Lernen und naturbasierten Techniken zur Erkennung von Kreditkartenbetrug. Int. J. Syst. Assur. Ing. Geschäftsführer 8(2), 937–953. https://doi.org/10.1007/s13198-016-0551-y (2017).

Artikel Google Scholar

Chawla, NV, Bowyer, KW, Hall, LO & Kegelmeyer, WP SMOTE: Synthetische Minderheits-Oversampling-Technik. J. Kunst. Int. Res. 16, 321–357. https://doi.org/10.1613/jair.953 (2002).

Artikel MATH Google Scholar

Douzas, G. & Bacao, F. Geometrisches SMOTE, ein geometrisch verbesserter Drop-In-Ersatz für SMOTE. Inf. Wissenschaft. 501, 118–135 (2019).

Artikel Google Scholar

Xiao, C., Freeman, DM und Hwa, T. Erkennung von Clustern gefälschter Konten in sozialen Online-Netzwerken. In AISec 2015 – Proceedings of the 8th ACM Workshop on Artificial Intelligence and Security, gemeinsam mit CCS 2015, 91–102. https://doi.org/10.1145/2808769.2808779 (2015)

Brennan, P. & Hofmann, M. Eine umfassende Übersicht über Methoden zur Überwindung des Klassenungleichgewichtsproblems bei der Betrugserkennung. (2012)

Chawla, NV, Japkowicz, N. und Kotcz, A. Editorial: Sonderausgabe zum Lernen aus unausgeglichenen Datensätzen. (2004)

Dal Pozzolo, A., Boracchi, G., Caelen, O., Alippi, C. & Bontempi, G. Erkennung von Kreditkartenbetrug: Eine realistische Modellierung und eine neuartige Lernstrategie. IEEE Trans. Neuronal. Netw. Syst lernen. 29(8), 3784–3797. https://doi.org/10.1109/TNNLS.2017.2736643 (2018).

Artikel Google Scholar

Zadrozny, B., Langford, J. & Abe, N. Kostensensitives Lernen durch kostenproportionale Beispielgewichtung. In der dritten IEEE International Conference on Data Mining, 435–442. doi: https://doi.org/10.1109/ICDM.2003.1250950 (2003)

Salvador, S., Chan, P. und Brodie, J. Lernzustände und Regeln für die Erkennung von Zeitreihenanomalien. (2004)

Gualberto, ES, De Sousa, RT, De Vieira, TPB, Da Costa, JPCL & Duque, CG Von Feature Engineering und Themenmodellen bis hin zu verbesserten Vorhersageraten bei der Phishing-Erkennung. IEEE Access 8, 76368–76385. https://doi.org/10.1109/ACCESS.2020.2989126 (2020).

Artikel Google Scholar

Alpaydin, E. Einführung in maschinelles Lernen, 4. Aufl. (MIT Press, 2020).

MATH Google Scholar

Rosner, F., Hinneburg, A., Röder, M., Nettling, M. und Both, A. Bewertung von Themenkohärenzmaßnahmen. http://arxiv.org/abs/1403.6397 (2014)

Cortes, C. & Vapnik, V. Support-Vektor-Netzwerke. Mach. Lernen Sie 20(3), 273–297. https://doi.org/10.1007/BF00994018 (1995).

Artikel MATH Google Scholar

Bishop, CM Mustererkennung und maschinelles Lernen. https://link.springer.com/book/9780387310732 (2006)

Breiman, L., Friedman, JH, Olshen, RA & Stone, CJ Klassifizierungs- und Regressionsbäume (Routledge, 2017).

Buchen Sie MATH Google Scholar

Breiman, L. Zufällige Wälder. Mach. Lernen Sie 45(1), 5–32. https://doi.org/10.1023/A:1010933404324 (2001).

Artikel MATH Google Scholar

Friedman, JH Greedy-Funktionsnäherung: Eine Gradientenverstärkungsmaschine. Ann. Stat. 29(5), 1189–1232 (2001).

Artikel MathSciNet MATH Google Scholar

Wolpert, DH Gestapelte Verallgemeinerung. Neuronales Netz. 5(2), 241–259. https://doi.org/10.1016/S0893-6080(05)80023-1 (1992).

Artikel Google Scholar

Agusta, ZP & Adiwijaya,. Modifizierter ausgeglichener Zufallswald zur Verbesserung der Vorhersage unausgeglichener Daten. Int. J. Adv. Intel. Inf. 5(1), 58–65 (2019).

Google Scholar

Lundberg, SM, & Lee, SI, Ein einheitlicher Ansatz zur Interpretation von Modellvorhersagen. Zugriff am 8. Juni 2023. https://github.com/slundberg/shap

Hannun, A., Guo, C. und van der Maaten, L., Messung von Datenlecks in Modellen des maschinellen Lernens mit Fisher-Informationen. http://arxiv.org/abs/2102.11673

Lu, J. et al. Lernen unter Konzeptdrift: Ein Rückblick. IEEE Trans. Wissen. Daten-Ing. 31(12), 2346–2363. https://doi.org/10.1109/TKDE.2018.2876857 (2020).

Artikel Google Scholar

Kumar, S. & Shah, N. Falsche Informationen im Web und in sozialen Medien: Eine Umfrage. (2018)

Referenzen herunterladen

NOVA Information Management School (NOVA IMS), Universidade Nova de Lisboa, Campolide Campus, 1070-312, Lissabon, Portugal

Abed Mutemi & Fernando Bacao

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Die Autoren haben gleichermaßen zu dieser Arbeit beigetragen.

Korrespondenz mit Abed Mutemi.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Mutemi, A., Bacao, F. Ein numerisch-basiertes maschinelles Lerndesign zur Erkennung von organisiertem Einzelhandelsbetrug auf digitalen Marktplätzen. Sci Rep 13, 12499 (2023). https://doi.org/10.1038/s41598-023-38304-5

Zitat herunterladen

Eingegangen: 31. Juli 2022

Angenommen: 06. Juli 2023

Veröffentlicht: 02. August 2023

DOI: https://doi.org/10.1038/s41598-023-38304-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.