Hola
@dralexguemez
Tu idea es bastante buena, pero no es útil en el momento presente. En tema de algoritmos para analizar las KW, la cosa ya ha avanzado bastante, e incluso algoritmos como el TF*IDF ya no son tan populares como hace 3 o 4 años que estaban en pleno apogeo.
Además estoy observando que el algoritmo que has creado está incompleto y estas subestimando un poco la potencia actual de Mr.G. Tienes que tener en cuenta que Google es capaz de generar variaciones de una palabra según la locale, por ejemplo si tú escribes "como", Google puede interpretar "cómo" e incluso "comoo" y "ocmo" como un misspell.
Por eso no te sale ningún "match" como tú comentas.
Siento decirte que esto tiene muy poco valor, y si escribes de manera natural, centrándote en resolver una intención de búsqueda, esto que tu llamas keywords se va a dar de manera natural en tu artículo.
Además, me juego lo que quieras, a que el Word Count como tú le llamas, lo estás haciendo mal con tu script y estás contando todas las palabras de la página, cuando Google, hoy en día, ya tiene un algoritmo lo suficientemente potente para diferenciar lo que considera el "Main Content" (Contenido principal) del "Secondary Content" e incluso, contenido que se genera de otras fuentes en algunos sites, como los anuncios. Por mi experiencia un WC mal hecho, puede llegar a reflejar entre un 30 y un 100% más de palabras de lo que realmente tiene un artículo.
Existen otros algoritmos que son capaces de aplicar técnicas mucho más poderosas en lo a palabras importantes se refiere, como el LSA. Ya que te gusta tanto Python por lo que veo, echa un ojo a este artículo:
https://towardsdatascience.com/late...iment-classification-with-python-5f657346f6a3