MASP – zwalczamy SPAM skutecznie

Ten wpis jest prawdziwym wpisem po latach 😉

Jakieś pół roku temu trochę dla funu, trochę z pobudek zrobienia czegoś fajnego zacząłem robić całkiem ciekawy projekt 😉 Projekt ten dotyczył tak naprawdę rzeczy z którą spotykam się na co dzień i tak naprawdę, której nie chciałbym znać – SPAM.

Realizacja projektu w zamierzeniu miała pomóc w walce z niechcianymi treściami pod różną postacią – komentarzami na blogach i na fanpagach, postami i odpowiedziami na forach, czy wiadomościami mailowymi.

Po pół roku udało się stworzyć coś dzięki czemu można rozpocząć walkę z wrogiem 😀 Tak powstał MASP. Jest akronimem od słów „Message Auto Solid Protection” oraz swego rodzaju zabawą z przestawieniem liter SPAM -> MASP.

Po rejestracji w serwisie dodaje się aplikacje w ramach których będzie działał mechanizm. Każda aplikacja jest niezależnym bytem w ramach którego odbywa się klasyfikacja. W chwili obecnej korzystać z mechanizmu można na 3 sposoby:

  1. dostęp przez API – dzięki temu można klasyfikować dowolną treść
  2. wtyczka do komentarzy – dzięki której można w łatwy i szybki sposób wstawić system komentarzy na blogu / dowolnej stronie
  3. Facebook – poprzez połączenie konta z Facebookiem otrzymujesz możliwość sprawdzania pojawiających się na twoich stronach komentarzy w celu wychwycenia tych niewłaściwych, spamowych czy wulgarnych

W całym mechanizmie istotne jest to, aby pamiętać o nauczaniu mechanizmu, tzn. na samym początku trzeba poświęcić czas i odpowiednio oznaczać treści jako spamowe / niespamowe aby mechanizm po pewnym czasie na podstawie analizy statystycznej sam reagował na występujące zagrożenia.

Zachęcam do rejestracji i korzystania: MASP.in. Mile widziane uwagi 😉

PS. Zapomniałem wspomnieć, że chwili obecnej cały mechanizm jest za FREE 🙂

13 thoughts on “MASP – zwalczamy SPAM skutecznie

  1. @dozzie: W porównaniu do bayesa nasz algorytm oblicza wartości
    prawdopodobieństwa z całego przedziału 0;1 dzięki czemu jest bardziej wrażliwy i może zostać wykorzystany nie tylko do znajdowania SPAMu ale również niechcianych wiadomości.
    Dodatkowo wykorzystanych
    jest kilka innych sztuczek, które niech pozostaną tajemnicą 😉

    @pecet: prawda, że niezła nazwa? 😉

  2. Erm. Zdajesz sobie sprawę, że cała twoja odpowiedź jest bezsensowna?

    1. Filtry bayesowskie też zwracają wartości z przedziału [0,1].
    2. Sama przeciwdziedzina, o ile nie jest zdyskretyzowana, nie mówi nic o czułości filtra czy algorytmu. A tu nie jest dyskretna, tylko ciągła.
    3. Filtr bayesowski może być stosowany do dowolnego typu wiadomości.
    4. Spam i wiadomości niechciane to, zdaje się, to samo? Chociaż się nie upieram przy tym punkcie, bo to kwestia nomenklatury.

    Nie wierzę, że ktoś, kto takie brednie pisze, był w stanie opracować skuteczny algorytm.

  3. Może źle to ująłem – w podejściu bayesowskim owszem wartości są z przedziału 0;1 ale znajdują się na krańcach tego przedziału. W związku z tym ciężko ustalić, jak bardzo wiadomość jest legalna czy spamowa.

  4. „Może źle to ująłem – w podejściu bayesowskim owszem wartości są z przedziału 0;1 ale znajdują się na krańcach tego przedziału. W związku z tym ciężko ustalić, jak bardzo wiadomość jest legalna czy spamowa.” – zamiast wymyślać koło od nowa proponuję nauczyć się korzystać z istniejącego dorobku. A podejście „to takie świetne, bo nikt nie wie, jak działa” jest słabe.

  5. @snipe Ja. Stawiam, że masz zmodyfikowanego bayesa plus trochę reguł na sztywno (coś podobnego zrobiłem dla Blox http://rozie.blox.pl/2012/03/Automatyczne-wykrywanie-spamu-na-Blox.html#axzz23JKwawKz ). Oczywiście niesprawdzalne wprost. Oczywiście, można się bawić w sprawdzanie skuteczności przez porównanie próbek odrzucanych przez różne systemy. Różne języki, sposoby zaciemniania itp. Gwarantuję Ci, że to się da stosunkowo łatwo reversnąć, a przynajmniej znaleźć reguły omijające. Jeśli komuś zależy.

    Mały hint: w tego typu systemach (score’ujących) sam engine praktycznie nic nie wnosi i można go bez stresu opublikować. Ważne są reguły. Jeśli napiszesz system tak, że reguły i engine będą niezależne i rozdzielone, to primo możesz opublikować engine, secundo, być może znajdziesz chętnych do klepania reguł.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *