Pues no creo que sea complicado... sobre todo porque habrá muchos fallos en las estructuras gramaticales, en palabras mal usadas o traducidas. Por otra parte, porque se suelen publicar en un espacio corto de tiempo. Tercero porque las web luego tienen pocos enlaces, no es coherente tener 10.000 post y pocos enlaces. También porque pudieran detectar copias de sitios donde sacan la información, etc. Por el poco tiempo de las web, porque vayan sin firmar por autores, etc.
Vamos, no me he parado a estudiarlo a fondo, pero hay muchos parámetros que pueden ser aplicables para detectarlo. Luego hay también niveles y niveles, no es lo mismo contenido curado que solo automático.