Sundar Pichai, director ejecutivo de Google, ha tirado un gancho al hígado a Microsoft y su estrategia de inteligencia artificial. El jefe de la tecnológica acudió a una cumbre del New York Times en donde habló sobre el futuro de la IA y los retos que enfrentan. Durante su participación, Pichai se burló de Microsoft por no desarrollar su propios modelos de lenguaje.
De acuerdo con un reporte de Windows Central, Sundar Pichai, al igual que otros titanes de la industria tecnológica, habló sobre el futuro de la IA. El CEO de Google se mantiene confiable en que la innovación continuará en este segmento, aunque no a la misma velocidad que hemos visto durante los últimos años. Los adelantos en los modelos de lenguaje se han visto interrumpidos por la ausencia de datos de entrenamiento de calidad, un tema que la compañía parece minimizar.
En una entrevista, Sundar Pichai aprovechó para lanzar un dardo a Microsoft. Al directivo se le pidió su opinión sobre las declaraciones de Satya Nadella, quien hace tiempo mencionó que Google falló en su intento por convertirse en el líder de la carrera de la IA. Esta afirmación no causó gracia a Pichai, quien de inmediato respondió con algo irrefutable.
«Me encantaría hacer una comparación de los modelos propios de Microsoft con los nuestros cualquier día y a cualquier hora. Están usando los modelos de otros».
El disparo a quemarropa tiene relación con la asociación que existe entre Microsoft y OpenAI. Si bien es cierto que Google tenía los recursos y perdió la carrera de la IA frente a OpenAI, los de Redmond no tienen un modelo de lenguaje que pueda hacer frente a Gemini. Copilot y toda la estrategia de Microsoft se apoya en GPT-4, Codex y o1.
Microsoft sí desarrolla modelos de IA, aunque no como Gemini
Las declaraciones de Sundar Pichai tienen un poco de razón y un poco de ficción. Aunque Microsoft se apoya en OpenAI para impulsar las soluciones de IA, la tecnológica sí desarrolla modelos propios y algunos de ellos son muy eficientes.
Uno de los más recientes es Phi-3 vision, un modelo multimodal capaz de comprender imágenes y responder preguntas sobre ellas. El integrante de la familia Phi-3 debutó durante Build 2024, la conferencia para desarrolladores de Microsoft en donde se mencionaron sus habilidades para realizar tareas de razonamiento visual, comprender gráficos, diagramas y generar información a partir de ellos.
Por otro lado Phi-3 Mini es otro modelo pequeño (SLM) capaz de igualar a GPT 3.5 y que puede ejecutarse en dispositivos móviles. Phi-3 Mini tiene la capacidad de gestionar unos 3.800 millones de parámetros, una cifra que parece menor cuando se compara con los modelos de OpenAI, pero que le garantiza una soltura y rendimiento avanzado en hardware básico.
Previo al lanzamiento de Phi-3, Microsoft anunció el desarrollo de Kosmos-1, un modelo multimodal que puede procesar texto e imágenes. Sus primeras pruebas, en marzo de 2023, mostraron un desempeño impresionante en tareas de comprensión y percepción de lenguaje, reconocimiento de imágenes y texto visual. Su rendimiento fue tal que los ingenieros hicieron que respondiera una prueba de IQ.
Otros experimentos incluyen a VALL-E, un modelo de texto a voz que puede sintetizar voz realista y expresiva; E5, un modelo de incrustación de texto que puede representar texto como vectores numéricos; TrOCR, un modelo de reconocimiento de texto en escena que puede identificar con precisión el texto en imágenes; y XDoc, un modelo de comprensión que puede procesar documentos en varios formatos.