it-swarm.dev

Perché lo spam nei blog è sempre scritto così male?

Alcuni messaggi di spam appena aggiornati dal mio filtro Wordpress:

Fare domande è in effetti una cosa piacevole se non si capisce qualcosa totalmente, tranne per il fatto che questo articolo fornisce ancora una buona comprensione.

e

Grazie per qualsiasi altro blog informativo. Dove altro posso ottenere quel tipo di informazioni scritte in un modo così ideale? Ho un progetto a cui sto semplicemente lavorando, e sono stato alla ricerca di tali informazioni.

È solo che fondamentalmente tutto lo spam del blog proviene da paesi non di lingua inglese o c'è qualche tipo di decisione tattica presa sulla lingua? Lo chiedo perché quando l'ho visto per la prima volta, ho pensato che forse fossero autentici ma inarticolati.

103
Lucas

Gli spammer generano automaticamente nuovi commenti prendendo commenti esistenti ed eseguendoli attraverso un programma del thesaurus che sostituisce le parole con sinonimi o parti del discorso correlate. Il risultato è una frase che ha un senso, ma ha scelte Word che nessun madrelingua avrebbe mai fatto:

Dove altro posso trovare ...

chiaramente non è qualcosa che un madrelingua scriverebbe, ma

Dove altro potrebbe trovarsi ...

è, e può essere trasformato da una semplice sostituzione di pronomi e sinonimi nel testo spam.

In questo modo, anche se le forze anti-spam hanno un enorme database di commenti noti, gli spammer possono generarne infinitamente di nuovi che sono plausibilmente inglesi.

Sospettavo da tempo che fosse così, ma recentemente ho avuto le prove. Ora di tanto in tanto ricevo spam nei commenti contenente l'intero script di sostituzione; sarà qualcosa del tipo:

Non riesco a [credere/capire/comprendere] il [fantastico/superiore/sorprendente] [contenuto/informazione/dati] ...

Dal momento che gli spammer erano probabilmente non madrelingua inglese, non si sono accorti che stavano inviando la sceneggiatura anziché l'output.

Se esamini un corpus di spam abbastanza grande, puoi facilmente capire quali algoritmi stanno usando. Sarebbe una sfida interessante nell'ingegnerizzazione inversa scrivere un programma che deduca gli algoritmi usati dal corpus.

Lo chiedo perché quando l'ho visto per la prima volta, ho pensato che forse fossero genuini ma inarticolati.

Ti hanno ingannato una volta. Probabilmente non accadrà di nuovo!

Commenter TildalWave sottolinea:

nessuno dei messaggi di spam di esempio pubblicati da OP approva effettivamente alcun prodotto o promuove in altro modo qualsiasi altra causa.

Bene, lascia che ti faccia un esempio: ecco un commento arrivato pochi minuti fa sul mio blog:

user name:  cuisinart compact toaster review
user url:   toasterovenpicks.com
user email: [email protected]
user IP:    37.59.34.218 
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.

Il prodotto è promosso nei metadati dell'utente, non nel contenuto del commento. Il contenuto è solo un tentativo di superare il filtro antispam. (Sospetto che in questo caso il testo non sia una mutazione di un testo esistente, ma piuttosto generato da un processo di Markov su un corpus di documenti sulla pianificazione del matrimonio.)

Ovviamente anche le forze anti-spam sono presenti su questo, motivo per cui questo era nel mio filtro antispam. Il mio filtro antispam (akismet) in media lascia passare uno spam per ogni 705 inviato. Ancora una volta, questo è ciò che gli spammer stanno cercando; sanno che il 99,9% del loro lavoro non sarà mai visto da nessuno. Stanno cercando di esplorare casualmente lo spazio dei falsi negativi nei filtri antispam, uno spazio che sta diventando piuttosto piccolo.

139
Eric Lippert

La lingua potrebbe avere poco a che fare con un sig come parlava TidalWave .

Un po 'innocuo spamdexing.

Ho ricevuto alcuni dei primi esempi sul mio blog. Anche se sembra innocuo, in realtà sono spamdexing (un po 'di " black hat seo ") cercando di associare il loro account utente (e i collegamenti al sito Web per estensione) con le parole chiave nel blog (come diceva Xander, è marketing). Quando si fa clic sul collegamento, viene considerato un hit positivo dal blog. Se un blog ha abbastanza risultati positivi per una ricerca chiave, il suo link otterrà un aumento di +1 dai motori di ricerca per quanto riguarda la relatività delle parole chiave. La maggior parte dei motori di ricerca si è occupata di questo e cerca di prevenirlo con la corrispondenza della pertinenza nelle loro formule.

Il rovescio della medaglia è se un utente arriva sul tuo sito per qualcosa di fuori tema a causa di questo spam e lascia (rimbalza) i motori di ricerca penalizzeranno il tuo posizionamento generale (a causa della mancanza di sostanza) e il tuo posizionamento per la pagina con l'off -testo contenuto. Anche se non c'è molto a che fare con la sicurezza IT nello spamdex (a meno che non utilizzino un sito infetto come proprio URL), influisce negativamente sulle prestazioni [sociali] del sito in generale se un numero sufficiente di spammer lo fa e abbatte il tuo sito nel classifiche.

Per quanto riguarda il secondo esempio, contiene un hook per un'operazione di posta indesiderata a due post (trovata comunemente nei forum). Il primo poster creerà un account e pubblicherà una domanda che sembra una preoccupazione legittima.

... Dove altro posso ottenere quel tipo di informazioni scritte in un modo così ideale? ...

Poco dopo (entro 20 minuti circa, anche un paio di giorni) un altro poster (di solito dallo stesso paese, se non lo stesso intervallo IP) creerà un nuovo account e pubblicherà la risposta, che contiene il link in pertinenza alla domanda del poster originale. Dal momento che la maggior parte dei moderatori non eliminerà quella che sembra una vera discussione, il loro spam inganna di nuovo qualcuno ... è comunque spamdexing. Un esempio di stile di marketing migliore potrebbe essere:

Ho trovato un'ottima risorsa per [parole chiave qui] su [ http://www.example.com/] . Dovresti dare un'occhiata poiché hanno molte informazioni relative a [più parole chiave]. Dovrebbe aiutarti.

Alcuni degli altri trucchi che faranno è avere un'immagine della firma che è una GIF trasparente solo 1 pixel per 1 pixel e racchiusa in un <a> tag. Questo crea un collegamento ad un altro sito Web ovunque il poster abbia scritto il loro contenuto incomprensibile. Solo perché non riesci a vederlo, non significa che non sia lì.

Le minacce spam non così innocue influiscono sulla sicurezza del server

Alcuni dei peggiori esempi di spam conterranno effettivamente un collegamento a un sito infetto o installeranno un javascript keylogger . (Ho visto il SVG hack usato nelle righe della firma per iniettare script dannosi.) Il keylogger è quello che devi fare attenzione perché possono catturare il nome utente e la password del blog/site admin o un altro utente con privilegi elevati quando tentano di accedere (o qualsiasi utente che crea un account) sulla stessa pagina per eliminare lo spam. Nel migliore dei casi, se l'utente ha accesso sufficiente per vedere altri utenti, l'attaccante scaricherà l'elenco di indirizzi e-mail dagli utenti e invierà messaggi e-mail di spam a un elenco di mercato (marketing).

Ai nuovi utenti innocenti possono essere rubate le credenziali e poiché la maggior parte delle persone usa le stesse password e lo stesso indirizzo e-mail ovunque, ora i loro account altrove possono essere compromessi. (Facebook, LinkedIn, ecc.)

Peggior scenario, poiché la maggior parte degli sviluppatori web dei sistemi CMS non si aspettano che qualcuno con "skillz" entri nel backend tramite uno di questi metodi (attendibile), non stanno facendo cose come controllare tutti i moduli di amministrazione per XSS o MySQL Injections (ho catturato alcuni dei miei sviluppatori in questo metodo). Da XSS a SQL injection dipende quindi dalla sicurezza della scatola, dalle limitazioni sugli account utente (non eseguire Apache come root) e dall'accesso in lettura/scrittura. Dal momento che si troverebbero nel CMS, si può presumere che l'utente possa probabilmente scrivere qualsiasi cosa nel riquadro desiderato. Elimina il database, infetta il sito con una backdoor ... ora è un problema di sicurezza IT.

28
AbsoluteƵERØ

La società con cui lavoravo era solita fare "spinning", che come una delle risposte sopra menzionate sta programmando la ricerca del thesaurus e sostituisce il testo. Tuttavia, lo faremmo in più livelli complessi.

  1. In realtà abbiamo impiegato veri scrittori americani per scrivere la copia originale.
  2. Quegli scrittori originali avrebbero segnato il proprio documento usando una sintassi speciale che abbiamo creato, contrassegnando parole, raggruppamenti di parole, frasi e intere frasi, compresi i sinonimi che ritenevano appropriati per ogni caso. Ciò significava sinonimi per intere frasi che potevano essere scambiate senza cambiare significato. Lo farebbero in un software di editing di testo che abbiamo creato per fornire suggerimenti di completamento automatico.
  3. Ogni volta che uno scrittore segna il proprio documento, memorizziamo tutti i sinonimi e le frasi in un dizionario e li usiamo per aggiungere suggerimenti allo scrittore per il loro prossimo incarico.
  4. Premi GO sulla macchina e lancia centinaia/migliaia di varianti.
  5. Suddivide blocchi di variazioni per il nostro team SEO nelle Filippine, il cui unico compito era trovare blog, forum e altri siti Web ad alto PR troppo stupidi per bloccarci.

È interessante notare che non abbiamo mai automatizzato la parte di invio effettiva, dal momento che era la cosa più semplice da individuare per le macchine. Un vero essere umano stava postando quella spazzatura.

Ah, i bei vecchi tempi di rovinare Internet per tutti.

19
Dan Gayle

Non so se nel tuo caso il testo che hai segnalato fosse l'intero commento (quale sarebbe quindi il suo scopo, sia come un commento autentico o come spam/truffa?).

Nel caso non lo fosse - e quando lo spam deve funzionare come preludio a interazioni future - allora scriverlo in un inglese scarso potrebbe essere fatto apposta , come "controllo" per una vittima che è abbastanza stupida da non riconoscere immediatamente la truffa e quindi vale la pena investire tempo.

Fonte: Perché i truffatori nigeriani affermano che provengono dalla Nigeria? di Cormac Herley, Microsoft Research.

17
Alberto Santini

Forse questo non risponderà alla domanda del PO, ma quegli spam non sono pensati per far comprare a nessuno.

Il punto è creare il numero massimo di commenti con collegamenti a pagine o siti particolari che gli spammer desiderano migliorare il loro PageRank. Quei siti sono dove si svolgerà il vero lavoro di sedurre potenziali acquirenti (o hackerare computer di potenziali vittime, o entrambi).

Ecco perché quasi ogni spam ha almeno un link. E quando non lo fa, è generalmente un commento appositamente predisposto ("Un articolo geniale", "Grazie per averlo condiviso" ...) in cui l'obiettivo è ottenere l'approvazione del commento e garantire al bot l'accesso diretto senza passare la coda di moderazione. Perché in alcuni CMS e forum, quando un utente raggiunge un numero minimo di messaggi approvati, verrà "taggato" come attendibile e non dovrà essere approvato ogni volta.

Quindi lo spam non è pensato per gli esseri umani ma per le macchine (motori di ricerca) e gli spammer devono fare il possibile per influenzare i motori di ricerca. Quindi, non perdono tempo sul contenuto, poiché nessun essere umano lo leggerà e si concentreranno su meccanismi che rendono molti messaggi più veloci e più semplici.

In una parola, non sei il bersaglio, sei solo un danno collaterale.

10
ahmed

Probabilmente è una combinazione dei due. Se usano un linguaggio che non ha correttamente senso grammaticale, c'è più probabilità che qualcuno possa interpretarlo erroneamente come feedback effettivo su un post poiché proveranno a riempire gli spazi vuoti in un modo sensato. Alla fine, la maggior parte di questo tipo di spam sta cercando di diffondere collegamenti sul Web per cercare di influenzare le classifiche di ricerca.

Per ottenere link per rimanere in piedi, hanno bisogno che i loro commenti appaiano autentici per renderli più difficili da estrarre facilmente dai commenti autentici. Forniscono risposte dal suono generico che "potrebbero" essere plausibilmente valide nella speranza che rimangano attive.

In altre situazioni, questo è il risultato del tentativo di inserire parole chiave nel commento in modo da aumentare l'associazione del collegamento con tali parole chiave.

9
AJ Henderson

Oltre alle belle risposte postate sopra, c'è una forte propensione al campionamento della tua domanda.

Riconosci solo i post di blog di spam poco elaborati come spam di blog. Non riconosci mai lo spam blog davvero ben realizzato come spam blog. Quindi sembra che tutto lo spam del blog sia scarsamente realizzato.

Ho ragione?

6
AllInOne

Abbastanza spesso i blogspammer usano i filatori di contenuti. Sostituiscono le parole con sinonimi, che dovrebbero funzionare in teoria, ma in realtà fanno sembrare il commento scritto da un bambino di 4 anni; o qualcuno che non ha l'inglese come prima lingua.

La maggior parte dei filatori di contenuti condividono una sintassi comune (esempio dalla risposta di Eric Lippert):

I can't [believe/understand/comprehend] the [great/superior/amazing] [content/information/data]...

Ciò significa che il filatore di contenuti sceglierà una parola casuale da ciascuna parentesi per costruire la frase. In questo modo puoi ottenere una grande varietà di commenti simili, senza avere duplicati esatti, rendendo un po 'più difficile per i plugin anti spam identificare contenuti simili se usano un checksum come md5 per confrontare i commenti con lo spam precedente.

4
iHaveacomputer

Potrebbero uscire da modelli come questo: https://Gist.github.com/shanselman/54222 , che è stato recentemente accidentalmente pubblicato sul sito di Scott Hanselman: http: // www. hanselman.com/blog/ExposedABlogCommentSpammersSourceTemplate.aspx

Come altri hanno già detto, tutto ciò che deve essere fatto è scrivere uno script per estrarre una Parola a caso dagli elenchi tra parentesi.

4
servarevitas3

Si può dire semplicemente che devi essere consapevole del SEO (Search Engine Optimization) IT ha 2 tipi di tecniche nei principali 1) Black Hat e 2) White Hat

Il cappello bianco fa il modo autentico o il lavoro autentico.

ma dove arriva black hat il tuo problema inizia, quello che fanno è che hanno creato il numero di nome utente, password o elenco di blog aperti ... Continuano a pubblicare contenuti sulla base delle loro esigenze (parole chiave) in modo che possano dare loro clic interni sul loro sito.

Come dice la prima risposta, usano software intelligenti che comprendono parzialmente il linguaggio e creano un paragrafo sulla base di parole chiave specifiche.

Quindi, avrà un senso, ma non avrà alcun senso ... :)

Spero che abbia senso nel contesto della tua domanda.

1
MarmiK