Basura entra, basura sale: los funcionarios enfrentan la tarea aparentemente imposible de regular la IA

Publicado: 2023-05-24

A medida que se dispara el uso de la inteligencia artificial a través de plataformas como Chat GPT, los legisladores estadounidenses se enfrentan a nuevas preguntas. Así como los funcionarios tuvieron que considerar la responsabilidad de las redes sociales, donde la mayor parte del contenido que aparece fue publicado por el público en general, ahora están lidiando con la responsabilidad de las plataformas de IA.

¿Quién es responsable de garantizar que las IA publiquen información correcta y no tóxica? Nadie lo sabe, al menos no todavía, y es fácil ver por qué.

El problema con la inteligencia artificial

Las IA se vuelven más inteligentes a través del entrenamiento en más y más conjuntos de datos, y la forma más fácil de encontrar enormes cantidades de datos para entrenar una IA es buscar en línea. Sin embargo, el problema es que no todo lo que se publica es información objetiva, especialmente cuando se trata de redes sociales.

Parte del contenido que se publica, en las redes sociales o en otros lugares, es simplemente una opinión en lugar de un hecho. Por otro lado, parte de esto es simplemente incorrecto: información errónea como rumores o, lo que es peor, desinformación publicada deliberadamente con intenciones maliciosas.

Desafortunadamente, las IA no pueden diferenciar entre información verdadera y falsa a menos que un humano les informe que la información es falsa. Además, muchos estudios de asistentes de IA como Siri y Alexa han demostrado cómo los sesgos humanos pueden colarse en la tecnología, que se supone que es imparcial.

Los legisladores estadounidenses también están preocupados por los posibles impactos de la inteligencia artificial en la seguridad nacional y la educación. En particular, los funcionarios están preocupados por ChatGPT, un programa de inteligencia artificial capaz de escribir rápidamente respuestas a una amplia variedad de preguntas. Inmediatamente se convirtió en la aplicación de consumo de más rápido crecimiento jamás registrada, atrayendo a más de 100 millones de usuarios activos mensuales en cuestión de meses.

Pide responsabilidad en la IA

Todos estos factores y más plantean muchas preguntas sobre la responsabilidad de la inteligencia artificial. En abril, la Administración Nacional de Telecomunicaciones e Información, que forma parte del Departamento de Comercio, pidió aportes públicos sobre posibles medidas de rendición de cuentas. La agencia citó el "creciente interés regulatorio" en un "mecanismo de responsabilidad" para la IA.

Específicamente, los funcionarios quieren saber si podrían implementar alguna medida para garantizar que "los sistemas de IA sean legales, efectivos, éticos, seguros y confiables". El administrador de la NTIA, Alan Davidson, dijo a Reuters que los sistemas de inteligencia artificial "responsables" pueden ofrecer "enormes beneficios...", pero "las empresas y los consumidores deben poder confiar en ellos".

El presidente Joe Biden había dicho anteriormente que no está claro si la IA es peligrosa y agregó que las empresas de tecnología “tienen la responsabilidad… de asegurarse de que sus productos sean seguros antes de hacerlos públicos”.

Cómo se entrenan los modelos de IA

Por supuesto, una inteligencia artificial solo puede ser tan buena como los datos utilizados para entrenarla. El CEO de Twitter, Elon Musk, amenazó con demandar a Microsoft tras acusarla de usar ilegalmente los datos de la red social para entrenar su modelo de IA. Por un lado, la amenaza de Musk es indicativa del reclamo de propiedad de Big Tech sobre los datos que ha recopilado, generalmente proporcionados por sus usuarios de forma gratuita. Estos gigantes tecnológicos ganan dinero cobrando a otras empresas por usar los datos recopilados, y esto debe ser lo que Musk tenía en mente para Microsoft si usaba los datos de Twitter.

Según CNBC, los expertos en inteligencia artificial ven las redes sociales como fuentes valiosas de datos para sus modelos porque capturan conversaciones de ida y vuelta a través de un entorno informal. Las IA deben recibir terabytes de datos con fines de capacitación, y gran parte de esos datos se extraen de sitios como Twitter, Reddit y StackOverflow.

Muchos de los primeros modelos de IA se desarrollaron en universidades y laboratorios de investigación, generalmente sin expectativas de ganancias. Sin embargo, a medida que las grandes empresas tecnológicas como Microsoft se mueven hacia estos modelos de IA invirtiendo grandes cantidades de capital, los grupos detrás de estos modelos de IA comienzan a buscar ganancias.

Como resultado, los propietarios de los datos en los que se entrena a estas IA comienzan a exigir pagos por el acceso a sus datos. Por ejemplo, Reddit dijo en abril que comenzaría a cobrar a las empresas por modelos de IA para recibir acceso a sus datos con fines de capacitación. Otras compañías, incluidas Universal Music Group y Getty Images, exigen el pago de sus datos que se utilizan para entrenar modelos de inteligencia artificial.

Una pregunta crítica para los modelos de inteligencia artificial

Sin embargo, dejando de lado la necesidad de que los modelos de IA se entrenen con grandes cantidades de datos, una cosa que no se discute mucho es si las redes sociales son realmente las mejores fuentes para entrenar modelos de IA. No es ningún secreto que las redes sociales son antros de desinformación y desinformación.

Los humanos no son infalibles, por lo que pueden publicar información incorrecta o compartir rumores, ninguno de los cuales es adecuado para entrenar modelos de IA porque no representan información objetiva. Además, volvemos al tema del sesgo humano porque las redes sociales suelen estar llenas de publicaciones sesgadas.

Lo que es peor, algunos estudios han indicado que Facebook y otras redes sociales están silenciando activamente las voces conservadoras. Si eso continúa, los modelos de IA que entrenan en las redes sociales tendrán un sesgo inherentemente liberal, simplemente por los datos con los que fueron entrenados.

Se muestra que las IA difunden información falsa

Incluso dejando a un lado el tema de la política y los liberales versus los conservadores, no hay forma de verificar que las publicaciones en las redes sociales que se utilizan para entrenar un modelo de IA compartan información fáctica. Las redes sociales son un lugar para expresar opiniones, pero lo que necesitan las IA son hechos para que puedan aprender a identificar información verdadera y falsa.

Por ejemplo, un estudio realizado en la Universidad de Stanford reveló que las IA no siempre pueden identificar con precisión el discurso de odio. Incluso los humanos a menudo no pueden ponerse de acuerdo sobre este tema, por lo que un modelo de inteligencia artificial está inherentemente limitado a los prejuicios de la persona o personas que le dijeron qué constituye un discurso de odio.

Sin embargo, el problema de la información errónea o la desinformación puede ser un problema aún mayor. Por ejemplo, un estudio encontró que ChatGPT tiende a inventar fuentes anónimas falsas cuando se le asigna la tarea de escribir un artículo de noticias sobre el exalcalde de la ciudad de Nueva York, Michael Bloomberg. De hecho, esas llamadas “fuentes anónimas” parecían “sarga” a Bloomberg por “usar su riqueza para influir en la política pública”, según NBC New York.

Cada vez más estudios que demuestran que ChatGPT y sus sucesores, como ChatGPT-4, difundirán información falsa si se les da la oportunidad de hacerlo. Tal como están las cosas ahora, la repentina popularidad de esta IA destaca la necesidad de una mayor conciencia de las deficiencias de la inteligencia artificial y un mayor estudio sobre cómo entrenarla y potencialmente regularla.