Social Media Spam: Bezahlte Postings sollen zukünftig automatisiert erkannt werden

Unerwünschte Beiträge, generell als Spam bezeichnet, sind ein Problem. Hautnah spür- und erfahrbar zumindest für jeden E-Mail Nutzer. Aber auch in sozialen Netzwerken, allen voran Bewertungsplattformen, Facebook-Pages oder Ratgeberforen, werden Inhalte veröffentlicht, die man als unerwünscht qualifzieren kann: verdeckte Werbung, gefakte Produktbewertungen, Stimmungsmache gegen Mitbewerber etc. Stichwort: Social Media Spam.

Bezahlte Beiträge: Ein eigener Geschäftszweig
Dass hinter diesen Beiträgen eine richtige Industrie steckt, ist quasi ein offenes Geheimnis. Das Community Management kämpft dabei an vorderster Front, um die Plattformen so sauber wie möglich zu halten. Verständlicherweise, leben doch gerade Bewertungsplattformen oder Themencommunitys von ihrer Glaubwürdigkeit. Wird diese dauerhaft untergraben, ist das Geschäftsmodell gefährdet.

Gegenstand der Studie: Automatisierte Erkennung von unterwünschten Inhalten
Was bisher durch die Administratoren, Social Media Verantwortlichen und natürlich Community Manager meist in mühevoller Handarbeit, teilweise zumindest unterstützt von Technik, herausgefiltert wird, soll zukünftig automatisiert erkannt werden. Dies hat sich zumindest ein Forscherteam von der Universität in Victoria in der kanadischen Provinz British Columbia auf die Fahnen geschrieben:

We initiate a systematic study to help distinguish a special group of online users, called hidden paid posters, or termed “Internet water army” in China, from the legitimate ones.

Basis der Studie sind Analysen des Verhaltens (offensichtlich) bezahlter Beitragsschreiber in zwei großen chinesischen Foren. Eine Erkenntnis: Bezahlte Beitragsschreiber legen ein anderes „Postingverhalten“ an den Tag, als der normalersterbliche Nutzer. So ist nach Erkenntnissen der Forscher beispielsweise die Postingfrequenz vergleichsweise hoch und es werden bevorzugt neue Threads eröffnet und seltener in bestehenden Threads geantwortet. Da die Arbeit faktisch nach Akkord bezahlt wird, werden auch Passagen häufiger wiederverwendet, sprich es wird verstärkt Copy & Paste genutzt. Auch die Bestands- bzw. Nutzungsdauer der einzelnen Accounts ist vergleichsweise kürzer.

Vergleichsweise hohe Trefferquote: > 88%
Die am 18.11.2011 unter dem Titel Battling the Internet Water Army: Detection of Hidden Paid Posters veröffentlichten Erkenntnisse sind nicht der erste Versuch, missliebige Spammer und deren Beiträge zu identifizieren. Interessant an der aktuellen Studie ist vor allem die Trefferquote, basierend auf semantischen Analysen, welche die Forscher mit einer Genauigkeit von bis zu 88,79% angeben. Zum Vergleich: Vorhergehende Studien kommen nach Aussage der Forscher nur auf eine Trefferquote um die 50%. Oder klarer ausgedrückt: Kommissar “Zufall” hat eine ähnliche hohe Zuverlässigkeit. Anzumerken ist allerdings, dass die untersuchte Grundgesamtheit in der vorliegenden Studie aus lediglich 775 Usern und knapp 22.000 Beiträgen bestand.

Im nächsten Schritt ist eine weitere Verfeinerung und Erweiterung der Systematik geplant:

As future work, we plan to further improve our detection system and extend our research to other relevant areas, such as network marketing.

Spam-Erkennungssoftware für jedermann?
Ob und in welcher Form aus dieser Studie ein marktreifes Produkt in Form einer “Spam-Erkennungssoftware” entstehen kann und soll, steht bisher in den Sternen. Zum aktuellen Zeitpunkt ist die Studie aber zumindest mit dem Prädikat „lesenswert“ für alle Community & Social Media Manager zu versehen, die ihre eigene Trefferquote beim Kampf gegen die Spammer gerne erhöhen würden.

Wer die Ergebnisse gerne im Original sichten und bewerten möchte, kann die 10-seitige Studie auf der folgenden Seite herunterladen:

Fake-Profile in Online-Communitys identifizieren

Vor einigen Wochen hatte ich mich im Community Management Blog schon mit der Frage beschäftigt, ob Fake-Profile von Seiten des Community Managements eingesetzt werden. Dass Fake-Profile von Mitgliedern genutzt werden, ist hingegen ein offenes Geheimnis.

Im Rahmen dieses Artikels möchte ich eine kurze Einführung zur grundsätzlichen Problematik und einige Praxis-Tipps geben, wie Fake-Profile erkannt werden können.

Was sind Fake-Profile?
Bei einem Fake spricht man von einer Fälschung oder auch einem Schwindel. D.h. in einem Fake-Profil macht ein Mitglied übertriebene oder sogar komplett falsche Angaben. Die Motive sind höchst unterschiedlich. Beispiele können sein:

  • Aufwertung der eigenen Person
  • Angst vor der Veröffentlichung realer Daten
  • Betrugsabsichten

Warum bzw. wann sind Fake-Profile problematisch?
Bedingt durch die grundsätzlichen Freiheiten und die vermeintliche Anonymität im Internet werden falsche Angaben in Community-Profilen eher in die Rubrik Kavaliersdelikte eingeordnet. Realistisch betrachtet handelt es sich allerdings eher um Betrug. Betrug an den anderen Mitgliedern der Community und natürlich auch an den Betreibern der Community selbst. Während viele Fake-Profile oftmals zu Unterhaltungszwecken angelegt werden, gibt es allerdings auch weit problematischere Verwendungszwecke: Von der Störung des Community-Betriebs über die Unterstützung realer Profile mit einem Zweit- oder gar Dritt-Profil bis hin zur bewussten Täuschung mit Betrugsabsichten. Spätestens hier hört der Spaß auf. Um so wichtiger ist es, Fake-Profile schnell zu erkennen und zu entfernen.

Heransgehensweisen
Für das Aufspüren von Fake-Profile gibt es zwei Herangehensweisen:
Der bestehende Verdacht, z.B. durch Hinweise anderer Mitglieder
Die systematische / vorbeugende Suche nach Fake-Profilen

Offensichtlich gefälschte Profile, beliebte Beispiele sind die Klassiker Max Mustermann oder Mickey Mouse, sind leicht zu erkennen und können getrost direkt gelöscht werden. Schwieriger wird es, wenn die Fake-Profile mit größerem Aufwand angelegt und gepflegt werden. Im Folgenden möchte ich daher einige Ansätze vorstellen, wie Fake-Profile respektive Zweit-Accounts entlarvt werden können.

  • Doppelt genutzte IP-Adressen
    Die meisten Community-Tools bieten für das Community Management die Möglichkeit, die IP-Adressen anzeigen zu lassen, mit denen sich das Mitglied eingeloggt oder Beiträge verfasst hat. Bei einem Anfangsverdacht kann man so vergleichen, ob von ein und derselben IP-Adresse mehrere Accounts genutzt wurden. Achtung: IP-Adressen werden im Regelfall für jede aufgebaute Internetverbindung neu vergeben, es sind also zufällige Dopplungen möglich. In Firmennetzwerken wird nach außen für mehrere Rechner oft die gleiche IP-Adresse weitergegeben. Und es soll auch nette Menschen geben, die für Freunde die Urlaubsbetreuung des Profils übernehmen. D.h. eine Dopplung der IP-Adressen ist immer nur ein Indiz!
  • Abgleich von E-Mail Adressen
    Auch wenn die meisten Software-Tools für Online-Communitys inzwischen jede E-Mail Adresse nur einmal für eine Registrierung akzeptieren, kann sich ein Abgleich hier im Einzelfall lohnen.
  • Beobachtung des Verhaltens
    Besteht ein Anfangsverdacht, kann das aktuelle und vergangene Verhalten eines Mitglieds analysiert werden, um evtl. Zweit- oder Dritt-Accounts zu enttarnen. Typische Fragestellungen: Wann ist das Mitglied aktiv? Gibt es Besonderheiten im Schreibstil, treten z.B. bestimmte Erkennungsmerkmale wie Tippfehler oder Abschiedsfloskeln doppelt auf?
  • Beziehungen der Mitglieder untereinander
    Lohnenswert ist auch die Beziehungen von Mitgliedern genauer unter die Lupe zunehmen.   Auffällig wäre beispielsweise, wenn in einem Forum ein Mitglied immer nur auf die Beiträge eines bestimmten anderen Mitglieds antwortet, um dessen Statements zu unterstützen. Oder wenn  Beiträge eines Mitglieds immer wieder von einem bestimmten Mitglied nach einigen Tagen gepushtwerden. Gibt es innerhalb der Community ein Bewertungssystem, lohnt auch hier ein Blick hinter die Kulissen, wer – wen – wie bewertet hat. Vorschnelle Beurteilungen sollten vermieden werden: Untereinander bekannte Mitglieder pflegen oftmals kleine Unternetzwerke mit entsprechenden Auswirkungen auf Bewertungen, Unterstützung bei Diskussionen etc.
  • Registrierungsdatum
    Das Beitrittsdatum eines Mitglieds kann auch einen Hinweis auf Fake-Profile geben. Tauchen in einer hitzigen Diskussion plötzlich neue Mitglieder auf, die vehement Partei für ein Statement oder ein bestimmtes Mitglied ergreifen, ist auch hier besondere Aufmerksamkeit gefragt. Auch beliebt: Nach Sperrung oder Ausschluss eines Mitglieds taucht dieses mit einem neuen Account direkt wieder auf.
  • Der Offline-Check
    Werden in einer Online-Community reale Angaben, wie z.B. Adressen oder Namen verlangt, kann eine Suche im Telefonbuch oder über eine Suchmaschine zumindest einen ersten Überblick darüber geben, ob die Angaben korrekt sind oder zumindest korrekt sein könnten. Klassiker sind beispielsweise die Angabe nicht existierender Straßen / Wohnort-Kombinationen.
  • Wer-kennt-wen?
    Hilfreich kann es auch sein, alteingesessene Community-Mitglieder zu fragen, ob sie ein bestimmtes Mitglied persönlich kennen, schon Kontakt mit ihm hatten oder wie sie das Mitglied einschätzen würden. Gerade die aktiven Mitglieder verbringen viel Zeit in der Community und haben oftmals einen erstaunlich guten Überblick darüber, was in der Community passiert oder welche Mitglieder sich auffällig verhalten.
  • Private Nachrichten und Co.
    Aus Sicht des Datenschutzes mit Sicherheit nicht unproblematisch, aus Sicht des Community Management mitunter aufschlussreich: Im Verdachtsfall einen Blick in die interne Mailbox des Community-Mitglieds werfen. Sind dort beispielsweise auffällig viele Nachrichten mit werblichem Inhalt zu finden, ist Vorsicht geboten. Aber auch auffällig wenige Nachrichten können ein Anhaltspunkt sein. Gerade mit Zweit-Accounts werden meist keine Internen Nachrichten verschickt, da die Kommunikation mit anderen Mitgliedern über den „realen“ Erst-Account läuft.
  • Zeitspanne Registrierung (Update 03.03.2011)
    Ein weiterer interessanter Ansatz, ist das Anmeldeverhalten zu untersuchen. Konkret: Die Zeitspanne zu messen, die ein Nutzer zum kompletten Anlegen eines Accounts benötigt – und diesen Wert vergleichen mit der Zeitspanne, die ein „Normaluser“ braucht. Mit dieser Methode lassen sich mit großer Wahrscheinlichkeit vor allem automatisiert angelegte Fakeprofile identifizieren.

Fake-Verdacht: Und jetzt?
In meinen Augen ist es wichtig, keine schnellen Vorverurteilungen zu treffen. Auch wenn es Anhaltspunkte gibt, kann es sich immer noch um Zufälle, Gefälligkeitsdienste oder ähnliches handeln. Je mehr Anhaltspunkte für eine Fake- oder Zweit-Profil bestehen, desto größer ist natürlich die Wahrscheinlichkeit.

Empfehlung: Offensichtliche Fakes, Mickey Mouse lässt grüßen, können direkt gelöscht werden. In weniger offensichtlichen Fällen kann der Account zunächst gesperrt und das Mitglied per E-Mail um Stellungnahme gebeten werden. In der E-Mail sollte ein bestimmter Zeitpunkt genannt werden, bis wann die Rückmeldung erfolgen muss. Urlaubszeiten etc. sollten dabei natürlich einkalkuliert werden. Wichtig: In der E-Mail auf die Problematik von Fake-Profilen hinwiesen und vor allem offen die konkreten Verdachtsmomente ansprechen, so dass das Mitglied gegebenenfalls auf die einzelnen Punkte eingehen kann. Geht man offen mit der Thematik um, reagieren auch zu unrecht verdächtige Mitglieder im Regelfall positiv.

Aus meiner Erfahrung heraus wird sich in 95% der Fälle der Inhaber eines Fake-Profils nicht die Mühe machen, die Verdachtsmomente ausräumen zu wollen bzw. es wird leicht zu erkennen sein, dass die Angaben falsch sind. Nach Verstreichen der Frist bzw. wenn die Verdachtsmomente nicht ausgeräumt werden konnten, kann der Account guten Gewissens gelöscht werden.