
Franyer Rivas
1
Pi
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Verificado por Binance
¡Usuario popular!
Suscripción a IA
En el creciente mundo digital que vivimos es importante mantener nuestra presencia en línea…
¿Cansado de que tus posts tengan siempre el mismo estilo y esas “marcas de agua” que lo hacen tan evidentes que lo escribió don chat GPT 🙄?
Entonces quédate hasta el final por que hoy se viene una guía que vale muchísimo,
¿Qué aprenderás hoy?
Como entrenar a chat GPT con tu estilo de redacción
Cómo usar tu modelo entrenado en automatizaciones
Como extinguir a una llama que llama en llamas
En el tutorial anterior aprendimos a automatizar varios agentes GPT para tener una web automática o lo que se les ocurra, ahora bien, no deja de ser una IA y un modelo que ya tiene un estilo re quemado a estas alturas
¿La solución? Fine-tuning
Por mas que le demos un articulo entero a Chat GPT y le digamos “quiero un articulo con este estilo” la calidad, aunque mejora un poco, no es del todo optima y pueden ustedes hacer sus propias pruebas.
Pero bueno sin tanto bla bla bla e introducción innecesaria vamos al rollo
Preparación del Dataset
Es la base del entrenamiento, un conjunto de datos en donde se encuentra las instrucciones y los ejemplos con los que se entrenara el modelo
Para este caso cuyo objetivo es que aprenda un estilo de redacción, tenemos que pasarle artículos exactamente como nos gustaría que nos los entregara como respuesta, para ello preparemos un Excel con los siguientes campos
En la columna de Prompt, colocaremos nuestras instrucciones lo mas detallas posibles, por ejemplo:
Obviamente en la columna de título, el título del post y en la columna de artículo vamos a colocar un post completo con las características que le hemos mencionado
Es importante aclarar que el modelo replicará casi al 100% las similitudes con los artículos de ejemplo de su entrenamiento, por lo tanto, si le pasamos artículos ya formateados con etiquetas html, nos dará como respuesta un artículo con formato html
Si le pasamos artículos con errores ortográficos, nos dará artículos con errores ortográficos.
Por lo tanto, tomen muy en serio el trabajo de preparar los datos de ejemplo, entre mejor sean los ejemplos y tengan coherencia con las instrucciones que le pidan, mejores resultados tendrán.
Convirtiendo el Excel a JSONL
Se recomienda tener como minino 50 ejemplos para el entrenamiento, y para determinar cuántos serían los ideales aplicamos la regla de “menos es más” es decir entre mayor calidad sea nuestros ejemplos, vamos a requerir menos data para entrenar.
También va a depender de otros factores, como por ejemplo la temática, si yo le doy 500 ejemplos de un blog de marketing y SEO, y luego pretendo que escriba artículos de opinión política, los resultados no van a ser del todo buenos.
Teniendo estas consideraciones en cuenta, vamos a ir a don GPT, le adjuntamos el Excel y le pedimos que nos haga un dataset en formato JSONL para un fine-tuning y nos devolverá un archivo listo para usar.
Pero dependiendo el volumen de datos puede que no lo haga del todo bien, por lo tanto, les dejo por aquí totalmente gratis lo siguiente:
1 archivo Python para convertir el Excel a JSONL y JSON
1 excel con datos de ejemplo
1 dataset de ejemplo
Descargar Pack para Fine-Tuning
Para este ejemplo estoy usando el blog de Maiden Tomasena para que el modelo aprenda un poco su estilo, por ende, en el dataset de ejemplo podrán ver sus artículos para el entrenamiento.
Realizando el Fine-Tuning
Ahora ingresamos a la plataforma de openAI, vamos al Dashboard y ubicamos la opción Fine-tuning
Una vez ahí le damos a crear
Seleccionamos el modelo en este caso el ultimo seria GPT 4o-mini, subimos nuestro archivo Jsonl
En Suffix colocamos un nombre cual para identificar nuestro modelo
En el resto de opciones lo dejamos por defecto a menos que seas un experto en el tema (no me hago responsable si tocas algo que no haya mencionado y ocasionas un apocalipsis zombie 🧟♂️)
Finalmente le damos en crear, si todo está bien, saldrá un mensaje de que está trabajando y al finalizar nos avisará al correo asociado en nuestra cuenta, indicando que nuestro modelo está listo para usar.
Si algo salió mal, seguramente explote alguno de los servidores de OpenAI y el correo que recibas será de una demanda por daños y perjuicios 🤣
Comparando nuestro modelo
Ahora es el momento de ver si nuestro modelo esta listo para ser usado vamos al apartado de playground y en el selector de modelos buscamos el nuestro, aquí podremos ajustar la temperatura, recomiendo usar entre 0.5 a 0.8 ya que son muy sensibles a este parámetro.
Aunque no he colocado el post completo, esta vista previa nos confirma que la diferencia de respuesta es muy obvia, es digno destacar que nuestro modelo esta siendo comparado con GPT 4o el más potente del openAI (al menos hasta el momento de escribir esta guía).
Aquí un articulo completo creado con un modelo entrenado con este método: https://akmarketingseo.com/como-storytelling-puede-incrementar-ventas/
Obviamente tiene su debida curación humana, pero el tiempo para curar un contenido es mínimo y para proyectos no tan serios o comerciales se puede dejar con mas facilidad en piloto automático.
Para usar nuestro modelo en las automatizaciones que ya les he enseñado a crear solo deben editar el nodo que tengan y cambiar el modelo o en la configuración de su asistente cambiar el modelo que estén usando y listo
¡Hasta el 23 de septiembre del 2024 el proceso de fine-tuning con GPT 40-mini será gratuito! (2m de tokens por día) Así que es tu oportunidad 🥳
Si se descargaron mi creador de dataset podrán ver que hay un archivo para convertir el dataset en formato JSON en vez de JSONL, ya que es el formato que usa Llama 3.1 de meta (modelo open source)
Si quieren que el próximo tutorial sea como entrenar a llama 3.1 con tus datos, de manera local y totalmente gratis (si, el fine-tuning y uso del modelo sin pagar ni un centavo)
Deja tu comentario acompañado del hashtag #llamapro
Si veo interés entonces me animo a explicarlo con manzanitas ya que tiene cierto nivel técnico intermedio-avanzado.
¿Ahora cuéntenme ya tienen su propio modelo GPT entrenado? Los leo
¿Cansado de que tus posts tengan siempre el mismo estilo y esas “marcas de agua” que lo hacen tan evidentes que lo escribió don chat GPT 🙄?
Entonces quédate hasta el final por que hoy se viene una guía que vale muchísimo,
¿Qué aprenderás hoy?
Como entrenar a chat GPT con tu estilo de redacción
Cómo usar tu modelo entrenado en automatizaciones
En el tutorial anterior aprendimos a automatizar varios agentes GPT para tener una web automática o lo que se les ocurra, ahora bien, no deja de ser una IA y un modelo que ya tiene un estilo re quemado a estas alturas
¿La solución? Fine-tuning
Ok, ok sin ponernos muy técnicos es el equivalente a “clonar la voz” pero versión texto.Fine khe? Ey ey más despacio cerebrito…
Por mas que le demos un articulo entero a Chat GPT y le digamos “quiero un articulo con este estilo” la calidad, aunque mejora un poco, no es del todo optima y pueden ustedes hacer sus propias pruebas.
Pero bueno sin tanto bla bla bla e introducción innecesaria vamos al rollo
Preparación del Dataset
Es la base del entrenamiento, un conjunto de datos en donde se encuentra las instrucciones y los ejemplos con los que se entrenara el modelo
Para este caso cuyo objetivo es que aprenda un estilo de redacción, tenemos que pasarle artículos exactamente como nos gustaría que nos los entregara como respuesta, para ello preparemos un Excel con los siguientes campos
Prompt | Titulo | Artículo
En la columna de Prompt, colocaremos nuestras instrucciones lo mas detallas posibles, por ejemplo:
Crea un artículo copywriting seo usando el estilo ak marketing el estilo ak marketing costa de:
- aplicar negritas al texto en ideas relevantes
- redacción basada en copywriting persuasivo
- párrafos cortos
- formato html simple
- introducción y cierre natural, creativa
- usar listas y encabezados h2, h3,h4 y h5
Titulo del post: [Titulo]
Nota: Esto es un ejemplo muy básico y rápido, lo ideal es que sea lo mas detallado posible para que luego cuando el modelo este listo, no tengan que especificarle nada ya que por decirlo de algún modo lo supondrá
Obviamente en la columna de título, el título del post y en la columna de artículo vamos a colocar un post completo con las características que le hemos mencionado
Es importante aclarar que el modelo replicará casi al 100% las similitudes con los artículos de ejemplo de su entrenamiento, por lo tanto, si le pasamos artículos ya formateados con etiquetas html, nos dará como respuesta un artículo con formato html
Si le pasamos artículos con errores ortográficos, nos dará artículos con errores ortográficos.
Por lo tanto, tomen muy en serio el trabajo de preparar los datos de ejemplo, entre mejor sean los ejemplos y tengan coherencia con las instrucciones que le pidan, mejores resultados tendrán.
Convirtiendo el Excel a JSONL
Se recomienda tener como minino 50 ejemplos para el entrenamiento, y para determinar cuántos serían los ideales aplicamos la regla de “menos es más” es decir entre mayor calidad sea nuestros ejemplos, vamos a requerir menos data para entrenar.
También va a depender de otros factores, como por ejemplo la temática, si yo le doy 500 ejemplos de un blog de marketing y SEO, y luego pretendo que escriba artículos de opinión política, los resultados no van a ser del todo buenos.
Teniendo estas consideraciones en cuenta, vamos a ir a don GPT, le adjuntamos el Excel y le pedimos que nos haga un dataset en formato JSONL para un fine-tuning y nos devolverá un archivo listo para usar.
Pero dependiendo el volumen de datos puede que no lo haga del todo bien, por lo tanto, les dejo por aquí totalmente gratis lo siguiente:
1 archivo Python para convertir el Excel a JSONL y JSON
1 excel con datos de ejemplo
1 dataset de ejemplo
Descargar Pack para Fine-Tuning
Para este ejemplo estoy usando el blog de Maiden Tomasena para que el modelo aprenda un poco su estilo, por ende, en el dataset de ejemplo podrán ver sus artículos para el entrenamiento.
Nota: Aun hay muchos vacíos legales y éticos referentes a usar contenido publico para entrenar modelos de IA, por lo que si viven en países con leyes absurdas y cuestionables (cof cof unión europea.) los invito a indagar más sobre este asunto, yo solo estoy usando esta data para fines educativos, no me demanden please 😨
Realizando el Fine-Tuning
Ahora ingresamos a la plataforma de openAI, vamos al Dashboard y ubicamos la opción Fine-tuning
Una vez ahí le damos a crear
Seleccionamos el modelo en este caso el ultimo seria GPT 4o-mini, subimos nuestro archivo Jsonl
En Suffix colocamos un nombre cual para identificar nuestro modelo
En el resto de opciones lo dejamos por defecto a menos que seas un experto en el tema (no me hago responsable si tocas algo que no haya mencionado y ocasionas un apocalipsis zombie 🧟♂️)
Finalmente le damos en crear, si todo está bien, saldrá un mensaje de que está trabajando y al finalizar nos avisará al correo asociado en nuestra cuenta, indicando que nuestro modelo está listo para usar.
Si algo salió mal, seguramente explote alguno de los servidores de OpenAI y el correo que recibas será de una demanda por daños y perjuicios 🤣
Comparando nuestro modelo
Ahora es el momento de ver si nuestro modelo esta listo para ser usado vamos al apartado de playground y en el selector de modelos buscamos el nuestro, aquí podremos ajustar la temperatura, recomiendo usar entre 0.5 a 0.8 ya que son muy sensibles a este parámetro.
Aunque no he colocado el post completo, esta vista previa nos confirma que la diferencia de respuesta es muy obvia, es digno destacar que nuestro modelo esta siendo comparado con GPT 4o el más potente del openAI (al menos hasta el momento de escribir esta guía).
Aquí un articulo completo creado con un modelo entrenado con este método: https://akmarketingseo.com/como-storytelling-puede-incrementar-ventas/
Obviamente tiene su debida curación humana, pero el tiempo para curar un contenido es mínimo y para proyectos no tan serios o comerciales se puede dejar con mas facilidad en piloto automático.
Para usar nuestro modelo en las automatizaciones que ya les he enseñado a crear solo deben editar el nodo que tengan y cambiar el modelo o en la configuración de su asistente cambiar el modelo que estén usando y listo
Es importante aclarar que el proceso de fine-tuning tiene un costo un poco complicado de calcular, ya que va a depender del numero de tokens que se implemente durante el entrenamientoNota: Si no han entrenado su modelo con muchos datos no le aconsejo usarlo para webs en automático ya que suele alucinar mucho debido a los pocos datos de referencia de su entrenamiento
¡Hasta el 23 de septiembre del 2024 el proceso de fine-tuning con GPT 40-mini será gratuito! (2m de tokens por día) Así que es tu oportunidad 🥳
Si se descargaron mi creador de dataset podrán ver que hay un archivo para convertir el dataset en formato JSON en vez de JSONL, ya que es el formato que usa Llama 3.1 de meta (modelo open source)
Si quieren que el próximo tutorial sea como entrenar a llama 3.1 con tus datos, de manera local y totalmente gratis (si, el fine-tuning y uso del modelo sin pagar ni un centavo)
Deja tu comentario acompañado del hashtag #llamapro
Si veo interés entonces me animo a explicarlo con manzanitas ya que tiene cierto nivel técnico intermedio-avanzado.
¿Ahora cuéntenme ya tienen su propio modelo GPT entrenado? Los leo