Ten wpis jest prawdziwym wpisem po latach 😉
Jakieś pół roku temu trochę dla funu, trochę z pobudek zrobienia czegoś fajnego zacząłem robić całkiem ciekawy projekt 😉 Projekt ten dotyczył tak naprawdę rzeczy z którą spotykam się na co dzień i tak naprawdę, której nie chciałbym znać – SPAM.
Realizacja projektu w zamierzeniu miała pomóc w walce z niechcianymi treściami pod różną postacią – komentarzami na blogach i na fanpagach, postami i odpowiedziami na forach, czy wiadomościami mailowymi.
Po pół roku udało się stworzyć coś dzięki czemu można rozpocząć walkę z wrogiem 😀 Tak powstał MASP. Jest akronimem od słów „Message Auto Solid Protection” oraz swego rodzaju zabawą z przestawieniem liter SPAM -> MASP.
Po rejestracji w serwisie dodaje się aplikacje w ramach których będzie działał mechanizm. Każda aplikacja jest niezależnym bytem w ramach którego odbywa się klasyfikacja. W chwili obecnej korzystać z mechanizmu można na 3 sposoby:
- dostęp przez API – dzięki temu można klasyfikować dowolną treść
 - wtyczka do komentarzy – dzięki której można w łatwy i szybki sposób wstawić system komentarzy na blogu / dowolnej stronie
 - Facebook – poprzez połączenie konta z Facebookiem otrzymujesz możliwość sprawdzania pojawiających się na twoich stronach komentarzy w celu wychwycenia tych niewłaściwych, spamowych czy wulgarnych
 
W całym mechanizmie istotne jest to, aby pamiętać o nauczaniu mechanizmu, tzn. na samym początku trzeba poświęcić czas i odpowiednio oznaczać treści jako spamowe / niespamowe aby mechanizm po pewnym czasie na podstawie analizy statystycznej sam reagował na występujące zagrożenia.
Zachęcam do rejestracji i korzystania: MASP.in. Mile widziane uwagi 😉
PS. Zapomniałem wspomnieć, że chwili obecnej cały mechanizm jest za FREE 🙂
„oraz swego rodzaju zabawą z przestawieniem liter SPAM -> MASP”
Thank you Cpt. Obvious!
Będzie open-source?
@LTe: w chwili obecnej nie jest planowane wydanie wersji open-source 😛
Czym się to różni od zwykłego, z dawna znanego filtra bayesowskiego?
@dozzie ma lepszą nazwę
@dozzie: W porównaniu do bayesa nasz algorytm oblicza wartości
prawdopodobieństwa z całego przedziału 0;1 dzięki czemu jest bardziej wrażliwy i może zostać wykorzystany nie tylko do znajdowania SPAMu ale również niechcianych wiadomości.
Dodatkowo wykorzystanych
jest kilka innych sztuczek, które niech pozostaną tajemnicą 😉
@pecet: prawda, że niezła nazwa? 😉
Erm. Zdajesz sobie sprawę, że cała twoja odpowiedź jest bezsensowna?
Nie wierzę, że ktoś, kto takie brednie pisze, był w stanie opracować skuteczny algorytm.
Ano, też mi siadło zainteresowanie projektem po przeczytaniu tego komentarza…
Może źle to ująłem – w podejściu bayesowskim owszem wartości są z przedziału 0;1 ale znajdują się na krańcach tego przedziału. W związku z tym ciężko ustalić, jak bardzo wiadomość jest legalna czy spamowa.
Jak Ci one włażą na te krańce? O_o
„Może źle to ująłem – w podejściu bayesowskim owszem wartości są z przedziału 0;1 ale znajdują się na krańcach tego przedziału. W związku z tym ciężko ustalić, jak bardzo wiadomość jest legalna czy spamowa.” – zamiast wymyślać koło od nowa proponuję nauczyć się korzystać z istniejącego dorobku. A podejście „to takie świetne, bo nikt nie wie, jak działa” jest słabe.
@rozie: a kto powiedział, że wymyśliłem koło od nowa… Bo ja nie…
@snipe Ja. Stawiam, że masz zmodyfikowanego bayesa plus trochę reguł na sztywno (coś podobnego zrobiłem dla Blox http://rozie.blox.pl/2012/03/Automatyczne-wykrywanie-spamu-na-Blox.html#axzz23JKwawKz ). Oczywiście niesprawdzalne wprost. Oczywiście, można się bawić w sprawdzanie skuteczności przez porównanie próbek odrzucanych przez różne systemy. Różne języki, sposoby zaciemniania itp. Gwarantuję Ci, że to się da stosunkowo łatwo reversnąć, a przynajmniej znaleźć reguły omijające. Jeśli komuś zależy.
Mały hint: w tego typu systemach (score’ujących) sam engine praktycznie nic nie wnosi i można go bez stresu opublikować. Ważne są reguły. Jeśli napiszesz system tak, że reguły i engine będą niezależne i rozdzielone, to primo możesz opublikować engine, secundo, być może znajdziesz chętnych do klepania reguł.