You are on page 1of 32

Pensar en el interior de la caja: el

control y el uso de una base de datos Oracle AI


Stuart Armstrong Anders Sandberg Nick Bostrom [(2012) mentes y
mquinas, de prxima publicacin] www.nickbostrom.com
abstracto
no hay fuertes razones para creer que el nivel de inteligencia
humana representa un lmite superior de la capacidad de la
inteligencia artificial, en caso de que se concrete. Esto plantea
graves cuestiones de seguridad, ya que un sistema superintelligent
tendra un gran poder para dirigir el futuro de acuerdo a su sistema
de motivacin viciado posiblemente. La solucin de este problema en
general ha demostrado ser considerablemente ms difcil de lo
esperado. Este artculo se centra en un enfoque concreto, Oracle AI.
Oracle es un AI AI que no actan en el mundo excepto por contestar a
las preguntas. Incluso este enfoque estrecho presenta retos
considerables. En este trabajo, analizamos y crtica de diversos
mtodos de control de la gripe aviar. En general un Oracle AI podra
ser ms seguro que AI sin restricciones, pero an sigue siendo
potencialmente peligroso.
Keywords: Inteligencia Artificial, Superintelligence, la seguridad,
los riesgos, la motivacin, la capacidad de control control
1 Introduccin
Existen muchas motivaciones para perseguir el objetivo de la
inteligencia artificial (AI). Mientras algunas motivaciones son noinstrumental, como curiosidad cientfico y filosfico sobre la
naturaleza del pensamiento o de un deseo de no crear seres humanos,
un slido conjunto de motivaciones es la utilidad instrumental de
AI. Tales mquinas beneficiara a sus propietarios por ser capaz de
realizar tareas que exigen actualmente la inteligencia humana y,
posiblemente, las tareas que estn ms all de la inteligencia
humana. Desde una perspectiva econmica, la posibilidad de
complementar o sustituir con mano de obra ms barata software
costoso promete tasas de crecimiento muy rpido y de alta
productividad (Hanson, 2001) (Kaas, et al.
2010). La introduccin de suficientemente avanzada IA tendra
efectos profundos en la mayora de los aspectos de la sociedad,
haciendo una cuidadosa previsin importante.
Mientras que la mayora de las consideraciones sobre la mecanizacin
del trabajo han centrado en AI con inteligencia hasta el nivel
humano, no hay fuertes razones para creer que los seres humanos
representan un lmite superior de inteligencia posible. El cerebro
humano ha evolucionado bajo diversas limitaciones biolgicas (p.ej.
la disponibilidad de alimentos, el tamao del canal de parto,
intercambios con otros rganos, la exigencia de la utilizacin de
materiales biolgicos) que no existen para un sistema artificial.
Adems de tener diferente hardware, AI puede emplear algoritmos ms
eficaces que no pueden ser aplicadas tambin en la arquitectura

cognitiva humana (p. ej. Haciendo uso de muy amplio y exacto de la


memoria de trabajo, pilas,
1

mdulos de matemtica o simulacin numrica) o emplear trucos que no


son factibles para los seres humanos, como la ejecucin de mltiples
instancias cuyos recuerdos y conclusiones que eventualmente se
fusionaron. Adems, si un sistema de inteligencia artificial posee
habilidades suficientes, sera capaz de ayudar en el desarrollo de
una inteligencia artificial mejorada. Desde AI desarrollo" es una
expresin de la inteligencia humana, al menos algunos AI podra
lograr esta forma de inteligencia, y ms all de un cierto punto
acelerara el desarrollo ms all de la tasa actual (Chalmers 2010)
(Kurzweil 2005) (Bostrom 2004).
Si bien la probabilidad de superintelligent AI es objeto de
acalorados debates, la mera posibilidad plantea inquietantes
preguntas de poltica. En este papel, estamos tomando la
inteligencia significa principalmente la capacidad cognitiva para
alcanzar objetivos. Por ello, debemos esperar superintelligent
sistemas a ser considerablemente mejor a lograr sus metas de los
seres humanos (Yudkowsky 2008). Esto produce una arriesgada
diferencial de poder. La apariencia de superintelligence parece
plantear un riesgo existencial: la posibilidad de que la humanidad
es aniquilado o ha restringido drsticamente su potencial
indefinidamente (Bostrom, 2001). Esto podra lograrse a travs de un
nmero de maneras: permitiendo que refuerzan los sistemas que
limitan el potencial humano (por ejemplo, un estado policial global
(Caplan 2008), compiten por los seres humanos o los valores humanos
(vase 'mindless outsourcers' en (Bostrom 2004)), o actuando con
gran poder de tal manera malvola o indiferente que la humanidad va
extintas.
La ltima posibilidad podra ocurrir debido al mal formulada
motivaciones iniciales u objetivos, o evolucin gradual hacia los
comportamientos Omohundro hostil (2008).
1 En el espacio de posibles motivaciones , probablemente una
fraccin muy pequea es compatible con 2 convivencia con los seres
humanos . Selecciona aleatoriamente una motivacin puede, pues,
esperarse que
sea peligroso. Un ejemplo sencillo es el de un clip maximizer: AI
con una
funcin de utilidad que busca maximizar el nmero de clips . Este
objetivo no es demasiado
inverosmil de comandos de prueba para un nuevo sistema, sin
embargo, resultara en un AI dispuestos a
sacrificar el mundo y todos en ella, para hacer ms clips . Si
superintelligent,
AI sera muy bueno para convertir la W orld en clips, incluso si se
da cuenta de sus
creadores realmente d id no quieren que muchos clips - pero parando
conducira a un menor nmero de clips, y eso es lo que su objetivo
es (2009) Yudkowsky Bostrom (2003b). Este es un problema comn en la

programacin de computadoras, con el programa va ms all de los


lmites implcitos de lo que se esperaba de l (o usuarios dando, en
retrospectiva, los comandos errnea). De modo que a menos que
valorar el ser humano es una parte integral de la configuracin del
superintelligence, podemos esperar que se nos vea como meros
instrumentos u obstculos para sus propios objetivos.
Existen varios enfoques para AI riesgo. En la actualidad, la ms
comn es la esperanza de que no hay ningn problema: o inteligencias
suficientemente avanzada convergern hacia el comportamiento humanocompatible, se encuentre una solucin ms cercana a la hora cuando
realmente estn construidos, o que no se construye en primer lugar.
Mientras que tales consideraciones podran convertirse en realidad,
los argumentos para ellos parecen relativamente incierto, haciendo
que sea problemtico gamble riesgo existencial slo en ellas.
1 generalmente se argument que la inteligencia y la motivacin son
ortogonales, que una alta inteligencia no es garante de seguro
Bostrom motivos (2012).
2 Los seres humanos tienen muchas preferencias: supervivencia,
autonoma, placer hedonista, superando los desafos, interacciones
satisfactorias, e innumerables otros - y queremos que todos ellos
cumplen, en cierta medida. Pero elige aleatoriamente una motivacin
sera hacer caso omiso de la mitad de estas preferencias (en
realidad hara caso omiso de muchas ms, como estas preferencias son
muy complejas para definir - no querramos cualquiera de los
posibles "supervivencia parcial de las motivaciones, por ejemplo).
2

Otro enfoque es suponer que el comportamiento de los agentes


superintelligent ser limitada por otros agentes a la par con ellos
en el poder, de forma similar a cmo los seres humanos actuales y
las organizaciones estn limitadas por unos de otros y de las
instituciones de nivel superior (Sandberg 2001). Sin embargo, esto
presupone que la tasa de desarrollo de AI es lo suficientemente
lento que hay tiempo para formular un marco cooperativo y que habr
ms de un agente superintelligent. Y no hay ninguna razn para
suponer que un mundo con varios AIs es ms amigable para los seres
humanos que un mundo con un solo AI. De hecho, los seres humanos
pueden acabar vctima de la competencia, incluso si ninguno de los
AIs individualmente desea que el resultado sera, porque ninguno de
ellos poda permitirse el lujo de tomar medidas para proteger a los
seres humanos sin perder.
Un enfoque proactivo es intentar disear un 'amistoso AI", que est
diseado para ser de
3 de bajo riesgo (2001a) Yudkowsky Yudkowsky (2001b) . Esto podra
incluir salvaguardias
contra el desarrollo de orientaciones y en peligrosos - Nivel
superior objetivos que incluyen alguna
forma de bienestar humano . Este enfoque requiere tanto la conceptua
lizacin de

salvaguardias suficientes y la correcta aplicacin de esas


salvaguardias en el primer AI
que logra superintelligence . De este modo, depende el desarrollo de
una
teora viable de "amistad" antes de que todo se logra
superintelligence, cooperacin con los desarrolladores de AI, y
correcta aplicacin. El primer requisito es esencialmente el
"problema" de la moralidad inversa: construir metas, valores o
estructuras motivacionales que producen la clase adecuada de las
acciones de un agente que es, por supuesto, mucho ms inteligente
que la persona a la ejecucin de la construccin.
4 Cuando se discuten "amistad", una sugerencia comn es Oracle AI
(OAI) . La
idea es construir una IA que no acta, sino que slo responde a las
preguntas. Mientras
superintelligent "genios" que tratan de lograr los deseos de sus
dueos y soberanos AIs que actan de acuerdo a sus propios objetivos
son evidentemente peligrosos, los orculos parecen ms benignas.
Mientras los propietarios podran utilizarlas en egostas o maneras
destructivas -y sus respuestas pueden estar en s peligrosa Bostrom
(2011) - ellos mismos no representan un riesgo. O verdad? En las
historias, las botellas son raramente la solucin para genios.
Este documento intenta analizar el problema de "boxeo' un
superintelligence potencialmente hostil. La pregunta clave es:
Existen estrategias que reduzcan los posibles riesgos de un
existencial superintelligent AI tanto que, si bien su aplicacin
gratis como AI sera peligroso, una aplicacin Oracle sera seguro?
El papel comenzar por sentar las suposiciones de diseo general
para la OAI. A continuacin, se abordarn algunos de los riesgos y
peligros derivados de los seres humanos ejecutando e interactuando
con la OAI. La seccin central es la seccin 4, "mtodos de control"
, que analiza los distintos mtodos para mantener el control de la
OAI, y se discute su utilidad y sus debilidades. En la seccin final
se examina algunas de las otras cuestiones problemticas relativas a
la OAI (tales como su habilidad para simular los seres humanos
dentro de l y de su condicin de agente moral en s).
3 amabilidad no debe interpretarse aqu como amabilidad emocional o
social, sino simplemente una forma abreviada de cualesquiera
limitaciones conductuales o motivacionales que mantiene un sistema
de superintelligent deliberada o accidentalmente daando a los seres
humanos.
4 Otro trmino comn es "AI -in-a-box".
3

2 arquitectura conceptual de la AI
los posibles diseos de la OAI son innumerables y es imposible
predecir en detalle cmo se implementarn. A los fines de este

documento, sin embargo, vamos a asumir que la arquitectura de la OAI


sigue este formato general:
1) la OAI se implementa en un substrato fsico limitado
espacialmente, como un ordenador.
2) la OAI puede estar apagado o reinicio sin destruir su substrato
fsico, y se reinicia con facilidad.
3) La informacin de antecedentes de OAI viene en forma de un
"independiente" del mdulo de slo lectura que se pueden conectar y
desconectar segn sea necesario.
La mayora de los presentes el papel todava se aplica a la DSAI que
no siga uno o ms de estas restricciones.
La OAI se supone (cuando no se ha indicado lo contrario) a ser
humana de inteligencia equivalente o ms all; sistemas menos
capaces tienen pocas probabilidades de representar una gran amenaza.
2.1 Programacin directa, auto-mejoramiento y la evolucin
no es el propsito de este documento para especular sobre cmo la
OAI ser programado, pero es importante hacer notar que los tres
enfoques principales que se examina (as como las mezclas entre
ellos). La primera, aparentemente la ms difcil, es directamente
cdigo toda la OAI, justo como si se tratase de un programa
tradicional. Otra posibilidad es comenzar con un 'sembrar' AI, de
inteligencia limitada pero con la capacidad de auto-mejorar, con la
esperanza de que pueda transformarse en una entidad mucho ms
inteligentes, y seguir hacindolo una y otra vez mediante su
creciente buena inteligencia (1965) (Yudkowsky 2001c). Por ltimo,
es posible utilizar la evolucin dirigida como una manera de
construir una entidad inteligente, haciendo diferentes AIs putativo
competir segn criterios especficos, variando en ellos, y escoger
la ms exitosa en cada generacin. Este ltimo enfoque tiene la
ventaja de que ha funcionado en el pasado: nosotros mismos hemos
evolucionado a la inteligencia, as que dado el tiempo suficiente y
los recursos necesarios, por lo que debera ser un AI evolvable al
menos a nuestro nivel.
Los diferentes enfoques que plantean diferentes problemas de control
de la OAI resultante.
En el primer caso, el cdigo es claro para nosotros, porque lo hemos
escrito; las incertidumbres son slo alrededor de cul ser el
resultado cuando se ejecutan en el mundo real. Incluso los programas
simples suelen comportarse de maneras inesperadas, y es slo
posteriormente, tras analizar detenidamente el cdigo y su
ejecucin, que el programador determina cmo el comportamiento fue
escrito en l desde el principio. Una OAI es tan avanzada en
comparacin con cualquier programa que hoy no sera capaz de
predecir su comportamiento simplemente de leer o incluso escribir su
cdigo.
Por el contrario, si el cdigo es desconocido para nosotros, esto
agrega una capa adicional de incertidumbre y complejidad. Incluso si
tenemos acceso fsico al cdigo, nuestra capacidad para interpretar
su significado o predecir su comportamiento es incluso ms difcil
cuando no diseamos nosotros mismos; este problema se agudiza en el

caso de auto-mejoramiento y extrema en el caso evolucionado, donde


el cdigo es probable que sea incomprensible para nosotros en cada
nivel.
4

Por ltimo, si la OAI est cambiando y, a continuacin, los mtodos


de control se discute en la seccin 4 son necesarias para garantizar
no slo que la OAI actual es seguro y exacto, pero que la prxima
ser tambin, asegurando as una continuidad de precauciones durante
un ascenso de inteligencia controlada. Esto es ms fcil, pero
tambin ms vital, en el caso de auto-mejoramiento, donde la OAI
actual llega a determinar directamente la mente del prximo OAI.
2.2 Funciones de utilidad en
una forma de concebir un algoritmo de AI, dividindolo en dos
componentes bsicos:
el mdulo de inteligencia, capaz de tomar decisiones inteligentes
pero con ningn propsito intrnseco o direccin, y una funcin de
utilidad (von Neumann y Morgenstern 1944), que representa la
estructura motivacional de la AI. La AI entonces ser dedicada a
maximizar su utilidad esperada. La utilidad funcin asigna un nmero
nico a cada mundo posible y se trata explcitamente de la
probabilidad y la incertidumbre, lo que lo convierte en un formato
ideal para la AI con el que trabajar.
Se ha argumentado que toda auto-mejoramiento de AI que pueden
cambiar su estructura motivacional es probable para moverlo en la
direccin de una funcin de utilidad (Omohundro 2008).
Si este es el caso, es bastante probable que la OAI vamos a tratar
tendr su estructura motivacional implementado en este formulario.
Esta es una buena noticia, ya que esta divisin del trabajo nos
permite concentrarnos en hacer la funcin de utilidad segura,
mientras se ignora el resto de la OAI. La mayora de las soluciones
presentadas aqu no presuponen que la estructura motivacional de AI
es una funcin de utilidad, pero casi todos son mejores si lo es.
2.3 Precisin mtrica: AI-problema completa
aparte de la seguridad, el requisito ms importante para una OAI es
que sea precisa, al mejor de su habilidad. La idea de tener un
"Oracle" AI es p ara obtener respuestas tiles a nuestras preguntas.
"Hasta el mximo de sus posibilidades" significa al mejor de su
capacidad actual; que no nos gustara ver, por ejemplo, la OAI para
intentar obtener el control de los recursos del mundo real para
construir una mejor versin de s mismo que se conteste la pregunta
mejor. Impedir este comportamiento es principalmente hasta nuestros
mtodos de control (vase la seccin 4), pero el riesgo es que vale
la pena tener en cuenta a la hora de disear la exactitud mtrica.
Precisin informativa, no la estricta verdad, es el requisito.
Respondiendo a una pregunta sobre el probable ganador de las

prximas elecciones con una lista detallada de los tomos que ser
en qu posicin como resultado de esa eleccin no responde a la
pregunta. La OAI debe estar motivado para proporcionar respuestas
comprensibles por humanos. Sin embargo, esto requerir tanto a
comprender y aplicar los conceptos humanos. De ah la precisin, en
general, es un
5-AI problema completo (aunque ms estrecho AIs tratar problemas wer
narro no
requieren plena AI - exhaustividad para funcionar eficazmente) .
Aunque la precisin es mucho ms fcil
tha n amabilidad Yudkowsky (2001b) , requiere que la OAI ser capaces
de
comprender los conceptos humanos duro t hat slo estn definidas
dentro de nuestro cerebro.
5 Un trmino acuado por Mallery Fanya Montalvo (1988) por analoga
con el concepto matemtico de NP-completitud: Un problema es AIcompleto si una IA capaz de solucionar razonablemente podra tambin
ser capaz de resolver los principales problemas pendientes de AI.
5

Para que todava tenemos para cuantificar el nivel de distorsin y


simplificacin que est permitida en las respuestas de la OAI, ni
hemos incluso rigurosamente definidos los trminos "distorsin" y la
"simplificacin" de manera que las entidades no-humanas pudieran
comprender. Incluso intuitivamente, encontramos estos trminos
ambiguos. E incluso los conceptos que nos hacen entender
intuitivamente ya son difciles de formalizar - nos falta una
definicin precisa de la ira, por ejemplo, a travs de todos
nosotros "conocer" en gran medida lo que es el enojo.
Si la OAI est cableada demasiado hacia la veracidad, responder
"indeterminada" a casi todas las preguntas. Si est cableada
demasiado hacia la simplificacin, va a dar un "s" o "no" en
situaciones donde una respuesta ms complicada respuesta es llamado.
La respuesta correcta a "has dejado de pegar a su esposa?" no es
elegir entre "s" y "no" , escogiendo la respuesta que es
ligeramente ms precisa que la de otros. Los conceptos ms
complicados, como el de requerir que la OAI para contestar "s",
"no" o "la respuesta ser confundirle" dependiendo de cmo
reaccionaramos ante la respuesta- dependen de la OAI, tener una
buena comprensin de lo que es la "respuesta confundira usted" o
conceptos similares, y an sigue siendo ms probable una completa ai
problema.
En teora, se podra ganar mucho de separar las dos cuestiones:
tener una OAI dedicado a responder a nuestras preguntas con
veracidad, y un intrprete AI dedica a la traduccin de la respuesta
en un formato comprensible por humanos. Sin embargo, esto no
representa una ganancia para la seguridad: la OAI todava tiene un
enorme poder para influir sobre nosotros, y el intrprete AI debe
ser capaz de resolver el arduo problema de traduccin humana, por lo

que debe ser un complejo AI en s, con los consiguientes riesgos


para la seguridad. Desde la OAI debe ser capaz de comprender la
terminologa humana para contestar la mayora de preguntas tiles,
probablemente es mejor dejar el problema de traduccin.
Una alternativa ms promisoria es tener la salida OAI su estimacin
de probabilidad interna para un resultado binario: por ejemplo,
dando un 75% de posibilidades de "s" y el 25% de probabilidad de
"no". Las posibilidades de ambigedad es reducido aqu, aunque no
totalmente eliminado: sus versiones de "s" y "no" tienen que estar
de acuerdo con la nuestra.
Pero no es el propsito de este documento para averiguar cmo
codificar la exactitud mtrica, ni resolver el problema de
traduccin. Es suficiente para darse cuenta de que es un problema
difcil, uno que ser necesario abordar, probablemente, ya sea
mediante tcnicas avanzadas de codificacin directa (similar a los
mtodos basados en reglas motivacionales, vase la seccin 4.2.1) o
a travs de la capacitacin de los AI proporcionando
retroalimentacin sobre las preguntas del test (similar a la
motivacin mtodos de caja negra, consulte la seccin 4.2.2).
3 Consideraciones a nivel humano
crudo ataque de hackers la mecnica y los elementos de un sistema
informatizado.
Hackers atacan el punto ms dbil de un sistema: el elemento humano.
Y el componente humano de un proyecto OAI es un punto de
vulnerabilidad excepcional.
Los seres humanos son propensas a errores, hambrientos de poder, y
vulnerable a la manipulacin social. Estas debilidades se refuerzan
mutuamente, y la competencia (entre distintas personas en el mismo
proyecto OAI OAI, entre los diferentes proyectos, entre los
diferentes pases) exacerbarn todos ellos.
6

Los seres humanos son muy propensas a errores en la mayora de los


dominios (Ord, Hillerbrand y Sandberg, 2010) (Kahneman y Tversky
Slovic, 1982), y el tipo de paciente, prudentes medidas necesarias
para lidiar con una OAI son ajenas a nuestra naturaleza. Una
aplicacin burocrtica, con todo lo que requieren muchos pasos
concretos, precisamente definidos antes de que cualquier cosa puede
suceder puede ayudar a mitigar estos problemas. Los seres humanos,
sin embargo, estn especializados en trabajar alrededor de las
burocracias, por lo que puede ser necesario para automatizar la
mayora de estos pasos para eliminarlas del control humano directo.
Pero el mayor de los errores potenciales son conceptuales, no slo
los errores o descuidos. Si la OAI se crea sin muchos niveles de
precauciones, o si estas precauciones estn mal diseados, una
catstrofe es posible. Y son muchos los prejuicios humanos - el
sesgo de sobreconfianza, resultado positivo, status quo bias, etc.-

que hacen que la necesidad de estas precauciones menos obvia, y, por


tanto, es menos probable que se llevarn a cabo cuando llegue el
momento. La investigacin de AI ha durado largo tiempo (McCarthy, et
al. 1956), fue absurdamente confiado en la inminencia de la AI por
un perodo extendido (Simon 1965) Russell y Norvig (2009), pero los
investigadores han prestado escasa atencin a la seguridad hasta
hace poco (Bostrom, 2000). De hecho, obras de ciencia ficcin han
dado mucho ms, y anteriormente (1942), Asimov atencin a la
cuestin de la seguridad que seria trabajos acadmicos han. Esta es
la indicacin ms clara de que la OAI los diseadores, si quedan
librados a sus propios recursos, lo ms probable es que el abandono
de la seguridad. Si avanzadas AI haba sido posible en cualquier
momento en la ltima mitad del siglo pasado, hubiera tenido muchas
probabilidades de acabar en un desastre. Y aunque la seguridad ha
sido ms destacado recientemente, existen fuertes presiones
competitivas a apresurar el trabajo.
El dominio orculos limitada, son de menor riesgo. Si la OAI tiene
grandes habilidades para resolver las ecuaciones de Navier-Stokes,
pero poco ms, entonces se plantea en consecuencia menos riesgos.
Dsai estrecho que se limitan a cuestiones cientficas o tcnicas, si
tal restriccin podra ser verificado, son relativamente seguras.
Sin embargo, la tarea de avanzar en cualquier campo que impliquen
cuestiones centradas en el ser humano, tales como la economa, la
comercializacin, la poltica, la comprensin de la lengua, o
similar, es probable que sea AI-completa: una OAI capaz de
solucionar estos problemas es probable capaz de solucionar cualquier
problema humano.
El primer grupo para crear una exitosa superintelligent OAI tendr
un poder inmenso a su disposicin. Ellos sern capaces de obtener
respuestas a la avanzada de cientficos, mdicos, econmicos o las
cuestiones sociales. Si quieren imponer algn futuro sobre la
humanidad, por razones altruistas o egostas, la OAI les dar las
herramientas para hacerlo. La introduccin tocada con la misma
energa que una OAI puede ejercer a travs de su propio organismo;
puede ejercer el mismo poder, y ms directamente, bajo la direccin
de sus creadores.
Este inmenso poder ejercer una gran presin competitiva sobre
aquellos que intentan desarrollar una OAI (o una avanzada IA de
cualquier tipo). Desde la ventaja de ser pionera es tan enorme, la
carrera dar ventaja a aquellos que cortar las esquinas, escatimar
en precauciones de seguridad, y utilizar sus recin desarrollado OAI
para tomar el poder e impedir que sus rivales de emular a ellos.
Incluso si la DSAI son de inteligencia limitada inicialmente, las
mismas presiones competitivas empujar grupos para desarrollar el
primer 'ultra -smart' OAI.
Estas presiones agravar todos los problemas aqu y hacer los
creadores ms vulnerables a otro peligro: la ingeniera social por
parte de la OAI en s. Por si la OAI tiene preferencias del mundo
real, es ms fcil para l para aplicarlas si quienes cuestionan que
est descuidado, corri, y sed de poder. La ingeniera social es la
OAI
7 El

camino ms rpido para obtener el poder para s, y la ms


debilidades humanas tiene que explotar, mayor es el peligro. Eliezer
Yudkowsky ha realizado experimentos donde asumi el papel de un
procesador IA, y otros tomaron la posicin de un gatekeeper
(putativa con una recompensa de $10 si ellos no le dejaba "fuera de
la caja"). A pesar de ser de la inteligencia humana a s mismo, l a
menudo fue capaz de convencer a los porteros, exclusivamente a
travs de la argumentacin, a dejarlo fuera Yudkowsky (2002). Un
verdadero OAI debe ser mucho ms hbiles en esto.
Cmo disear instituciones que reducen todos estos diversos riesgos
est ms all del alcance de este papel. Probablemente habra que
implican la cooperacin a gran escala o dar prioridad a proyectos
especficos. Lo que vamos a discutir aqu, sin embargo, es cmo
reducir el riesgo del xito de la ingeniera social en la OAI, a
travs de las preguntas que nos hacemos de ella.
3.1 qu pedimos?
Todos somos vulnerables a la OAI el soc ial ingeniera. Una avanzada
OAI literalmente puede ofrecernos el mundo. Altruismo genuino no es
ninguna defensa contra esto; puede ofrecer un mundo libre de la
pobreza, el hambre, la guerra, la enfermedad o la muerte, as como
todo el personal de baratijas que podramos desear. Podra adivinar
las debilidades de cada individuo, y encontrar el derecho de
argumentos para convencernos que otorgndole poder o libertad moral
y rentable es la cosa que hacer.
Ser capaz de jugar en las rivalidades, las debilidades
institucionales y los dilemas ticos con ms virtuosismo que ningn
humano podra.
Largo, no dirigidas conversaciones entre la OAI y la gente operando
debe ser prohibido por esta razn. Las preguntas dirigidas a la OAI
debera ser limitado y especfico; las respuestas de igual manera.
La deshabilitacin de la OAI interacciones con los seres humanos
hace que sea mucho ms difcil para nosotros para ser manipulados.
(Consulte la seccin 4.1.2 para ms detalles sobre este enfoque, que
tambin se ocupa de cmo prevenir el contrabando OAI mensajes
'secretos' a travs de sus respuestas .)
Hay dos tipos de preguntas que uno puede pedir un AI: predicciones y
problemas.
Generalmente las predicciones son preguntas de "qu pasara si . .
." El tipo, mientras que los problemas son de "cmo podemos cumpli e
esta . . ." El tipo, aunque hay cierta superposicin entre las
categoras (uno puede resolver problemas a travs de un uso
inteligente de varias predicciones, por ejemplo). Para predicciones,
el principal peligro es que la OAI podra tener preferencias del
mundo real y va a distorsionar la verdad. Este peligro est presente
tambin en problemas, pero tambin hay peligros adicionales debido a
las consecuencias sociales de un pequeo grupo de humanos conocer
esas respuestas. Hay menos riesgo en conocer las consecuencias de un
enfoque estrecho (prediccin) de saber qu mtodo utilizar para
aplicar un determinado objetivo (problema).

Pero en cualquier caso, hay grandes riesgos sociales para pedir


ciertos tipos de preguntas (vase Bostrom 2011) sobre el posible
impacto negativo de ciertos tipos de conocimiento). Vivimos en un
mundo estratificado por apasionado poltico, nacionalista y
religiosa, por personas en posiciones de gran poder y riqueza que
quieran aferrarse a esos privilegios, y por personas sin esos
privilegios que quieren ellos. La informacin que condujo a la
ventaja poltica tecnolgica o anule estas jerarquas, y la gente
que se siente bajo ataque pueden ser contados en querer desquitarse.
8 pueden

lanzar ataques fsicos o comercial en el propio proyecto de OAI,


construir su propio OAI para competir, o impedir que el proyecto
desde siempre en el primer lugar de partida.
As que, a menos que la OAI es totalmente secreto, los diseadores
deben comprometerse a abstenerse de solicitar la OAI preguntas que
les conceden gran poder a expensas de otros, o preguntas que golpean
al corazn de poderosos movimientos ideolgicos (como por ejemplo,
"existe al menos un Dios?" , y "qu pas es mejor, en los Estados
Unidos, Francia o China?"). Un poste -OAI mundo va a ser muy
diferente de la actual, por lo que debemos actuar para reducir al
mnimo la perturbacin inicial, incluso si esto significa permitir
ineficiencias a permanecer o no saber las respuestas a preguntas
perfectamente razonable (" hay un algoritmo simple diseo que puede
sustituir, secretarios generales, profesores universitarios y
CEOs?").
Podemos evitar esas molestas preguntas de diversas maneras. La OAI
proyecto podra publicar, antes de tiempo, una lista de todas las
preguntas que le preguntar, antes de arrancar en el diseo. Una
votacin democrtica o internet se adoptaran, con preguntas que
requieren una mayora calificada (es decir, las nueve dcimas partes
de aprobacin) antes de ser sometido a la OAI. O podramos hacer uso
del propio OAI, finalizando cada pregunta con una salvedad, como "no
contestar esta pregunta si nosotros saber la respuesta es probable
que tenga un impacto muy negativo en el mundo".
A ir en contra de la OAI distorsiones, deberamos preferir preguntas
cuyas respuestas podemos verificar de forma independiente una vez
que disponemos de ellos. Tambin deberamos preferir a problemas
cuyas soluciones son reversibles - en otras palabras, si ponemos en
prctica la solucin de la OAI y t i va mal, deberamos ser capaces
de invertir sus efectos. Tambin deberamos preferir las soluciones
de la OAI para ser entendida tanto como sea posible, lo que implica
que el problema debe ser lo ms especfico posible. Por ejemplo,
"Cmo podemos utilizar estos materiales para construir un mejor
topadora?" sera un problema ideal para plantear la solucin de la
OAI; es probable que sea bastante comprensible, reversible, y quizs
incluso humano-checkable. En contraste, pidiendo la OAI para venir
con toda una nueva forma de organizar la economa mundial y aplicar
ciegamente su sugerencia a gran escala pueden conducir al desastre.

Afortunadamente, el deseo de tener un bajo impacto perturbador


encaja perfectamente con el deseo de tener soluciones reversibles.
La
subida del impuesto sobre la renta sea en la economa para los
prximos diez aos?" %1 problemas especficos tienen tambin la
ventaja de reducir los peligros sociales de las preguntas. Pocas
personas en el mundo se opondra enrgicamente a las preguntas del
tipo: "Cmo podemos curar el SIDA o el cncer/tuberculosis?",
"Cmo podemos disear un mejor sustrato de memoria para unidades de
disco duro?" o " Cules son las consecuencias de una
categora de utilidad Finalmente, uno de los problemas que plantean
la OAI se refiere AI seguridad por s misma.
Lo ideal sera que la OAI producir un sencillo, checkable versin de
amistoso AI, pero incluso los resultados provisionales podran ser
tiles. Habiendo la OAI precauciones de seguridad adicionales de
diseo sera una buena idea, siempre que estas precauciones se
agregan a (en lugar de) las ya existentes. Especficas, AIs menos
inteligente podra ser certificada por la OAI es seguro y no suponen
ningn riesgo de explosin de inteligencia (bueno, 1965), que
podran ser utilizados en la economa (aunque vase la seccin 5.1)
sobre los riesgos de tener la OAI simular otras AIs). Para disear
un mundo post OAI, probablemente ser necesario tener el veredicto
de la OAI en otros AIs en algn momento.
9

4 Mtodos de control
en esta seccin, analizaremos los distintos mtodos que pueden ser
usados para el control de la OAI. El objetivo es asegurar la OAI no
tiene objetivos que van ms all de responder a nuestras preguntas
con precisin, o para impedir la aplicacin de tales objetivos.
Los diferentes mtodos pueden agruparse en tres categoras
generales. La primera categora, la capacidad de control, se ocupa
de aquellos mtodos que intentan contener la OAI a travs asegurar
fsicamente o controlar la informacin a la que tiene acceso o
salida. La segunda categora, el control motivacional, introduce los
mtodos que controlan la OAI a travs de su motivacin, asegurando
que no tiene propensin a causar ningn dao a los seres humanos. Y
por ltimo, hay algunos mtodos diseados para prevenir la OAI no
causen daos pero para verlo cuando lo hace; estos se encuentran en
la categora de controles y equilibrios.
4.1 Capacidad de
control de la capacidad de control es el ms bsico y el ms obvio
de manera de controlar la OAI. Para el control de un ser humano,
ponemos a l o a ella en la crcel o el confinamiento en solitario,
negando las interacciones con el mundo exterior.
4.1.1 Capacidad Fsica

Seguridad fsica control Esta es la ms bsica de precaucin. El


objetivo es que resulta sumamente difcil para la OAI a afectar
fsicamente el mundo exterior. Lograr esto es razonablemente fcil.
La OAI ya est boxed (colocado en un nico substrato fsico) por
diseo (vase la seccin 4.1.1). Uno puede seguir colocarla dentro
de una jaula de Faraday, rodean la jaula con explosivos de alta
potencia, y enterrar el conjunto en un bnker de hormign. No hay
lmites para el nmero real de las medidas de seguridad fsica que
puede ser aadido por desconfiar o paranoico, desarrolladores, y sus
efectos son bien entendidas.
No hay manipuladores
otro aspecto esencial de la seguridad fsica es negar la OAI los
recursos fsicos y manipuladores que se podran utilizar para
construir herramientas para sortear estas precauciones. Se debe
tener cuidado de que las medidas de seguridad que ellos mismos no
contribuyen a la concesin de la OAI recursos fsicos! A veces los
picos en una puerta cerrada, no hacer nada sino proporcionar
Stepping Stones para aquellos que quieren subir sobre l. Como regla
general, el "dumber" y ms inertes las precauciones, el mejor: tanto
los seres humanos como la DSAI llegaron a un acuerdo sobre la
posibilidad de la construccin de tneles a travs de un muro de
hormign por el simple pensamiento ("No se puede hacer"), mientras
que los "inteligentes" las precauciones, ms la OAI es capaz de
explotar su inteligencia ventaja sobre nosotros.
10

4.1.2 control de capacidad epistmica


estrangulando la OAI fuera puesto en la seccin 3, vimos los riesgos
de la OAI alcanzar metas a travs de la ingeniera social.
Una forma de combatir este problema es reducir el ancho de banda de
salida del OAI. Si las juntas AI se reduce a emitir slo tres
respuestas: "s", "no" o "indeterminado" - entonces se tardar mucho
ms tiempo para montar con xito un ataque de ingeniera social. Si
muchos expertos independientes analizar cuidadosamente su salida
para mensajes ocultos, se vuelve an ms difcil: debe slant sus
respuestas a comunicar un mensaje a un individuo vulnerable,
ocultando el hecho de que un mensaje an existe.
La reduccin de la salida de la OAI no reduce las preguntas que se
pueden formular preguntas ms complejas, como puede ser descompuesto
en una serie de "s" y "no", responde. Naturalmente, el riesgo es el
que ms oportunidades tiene la OAI en contestar, ms posibilidades
tiene de transmitir un mensaje secreto. De la misma manera, dando la
OAI ms posibilidades para cada respuesta - como salida permitiendo
que las tres primeras cifras significativas de una estimacin de
probabilidad - aumenta el riesgo (aunque esto puede ser compensado
por el hecho de que tendremos que realizar menos preguntas).
La deshabilitacin de la OAI la salida no defender contra la OAI
manipulando nosotros a travs del contenido de sus respuestas,
simplemente contestando "indeterminado" a un montn de preguntas

concretas sera suficiente para empujar el desarrollo humano en


determinada direccin. Y esta precaucin ser de poca utilidad si
las preguntas son peligrosas (vase la seccin 3.1).
Restableciendo la OAI despus de cada ejecucin
sugerido por Toby Ord, esta precaucin restablece la OAI despus de
cada respuesta. Si se necesita ms precisin, o construir sobre si
algunas de las preguntas anteriores, entonces la OAI se ejecute de
nuevo, y el conocimiento de la respuesta anterior se agrega a su
base de datos.
Esta es una precaucin estrecho que ayuda si alguna vez la OAI sobre
valores de mundos que contienen
6 (o ms mundos que contiene su propio hilo continuo de experiencia
consciente ).
En este caso, esto evita la OAI de caer en los planes a largo plazo
que puedan ser
perjudiciales para los seres humanos. A diferencia de los seres
humanos, sin embargo, no hay razn para esperar que la OAI
para valorar este hilo de la experiencia; de hecho, si est bien
programado, no debera hacerlo
. T l OAI puede llegar a valorar la rosca de experiencia de "algn
tipo de OAI, similar a s mismo", en cuyo caso esta precaucin es
intil. Sin embargo, en el estrecho objetivo de prevenir un
particular potencial patologa en la OAI pueda tener consecuencias
negativas, es totalmente satisfactorio.
Tambin es exitoso en la prevencin ingenuamente codificada mtricas
de precisin (vase la seccin 2.3) el causante de la OAI para
buscar el control del mundo real o la riqueza, con el fin de obtener
recursos informticos adicionales y mejor respuesta a la pregunta.
Si la OAI no se restablezca entre las preguntas, podra utilizar sus
respuestas posteriores como la ingeniera social (vase
6 o cualquiera que sea la contrapartida podra aplicarse a un AI.
11

Seccin 3) para obtener estos recursos, para posteriormente dar


mejor respuesta a la primera pregunta.
Restableciendo entre preguntas evita este problema.
Mundos virtuales
Otra sugerencia es ejecutar la OAI no directamente en nuestro mundo,
sino como una subrutina de otro programa que modela un mundo virtual
(vase por ejemplo (Chalmers 2010). La versin ms sencilla de esto
sera para ejecutarlo en una mquina virtual (una aplicacin de
software de un equipo que ejecuta la OAI). La idea es "capturar" la
OAI si se porta mal, pero desde que se portan mal en el mundo
simulado, esto ser antes de que sea demasiado tarde (esto es
similar al control de la OAI como un demonio cartesiano). Todas las
entradas y salidas de la OAI ser dirigido a travs de ese mundo
simulado, slo que nos llegan de forma indirecta y a travs de un
ancho de banda limitado. A continuacin, una (mudo) proceso que

ejecuta la simulacin sera al acecho de signos reveladores de la


OAI de intentar establecer el predominio en el mundo simulado y
simplemente terminar el programa en ese caso, sin pasar de la OAI la
respuesta a nivel superior. Esto debera evitar que se incurran en
piratera tradicional, atacando el hardware o el software de su
sistema host.
Una variante ms aventureros se basa en varios niveles de sub-mundos
como una precaucin adicional. En esta configuracin, es concebible
que, incluso si la OAI derriban a nuestro mundo, todava estar
seguro de si se ha alcanzado el nivel final, y as seguir siendo
comportarse as, por miedo a ser en un mundo an mayor atrpalo
transgredir.
Para OAI que se pidi no tcnicas -las cuestiones sociales, el
enfoque puede funcionar sencillamente; el mundo simulado no necesita
ser especialmente complejo (podra ser lanzado como el juego de la
vida, o la fsica newtoniana) y la OAI se les negara el
conocimiento detallado sobre nuestro mundo y sobre nosotros, lo que
impide que se pueda realizar el truco (restablecimiento de la OAI
despus de cada pregunta o serie de preguntas cortas, como en el
mtodo anterior, ayudara muchsimo aqu).
Si furamos a obtener respuestas sobre cuestiones econmicas o
sociales complicadas, sin embargo, tendramos que dar la OAI
conocimientos detallados sobre el comportamiento humano y la
fisiologa. Una vez que sabe esto, o si no se est ejecutando en una
mquina virtual se vuelve irrelevante, ya que todava puede hacer
ingeniera social o piratera.
Un mundo simulado de baja fidelidad no sera tonto; tendra que ser
suficientemente detallada y coherente para la OAI para creer que las
entidades de este mundo simulado formulan preguntas pertinentes a s
mismos, o el truco sera evidente. Tanto ms porque nos habra dado
la OAI toda la informacin que necesitara para ver que somos una
especie de seres que tratar este truco! Y si somos capaces de
simular un mundo social y fsico con los detalles suficientes para
engaar a una OAI que sabe cmo pensamos, entonces probablemente
somos capaces de obtener respuestas a estas preguntas sin tener que
hacer uso de una OAI.
Tampoco ayuda si hemos simulado la OAI en un mundo simplificado,
donde otro AI pide que las preguntas en las siguientes lneas: "He
creado modelos hipotticos de estos seres llamados 'humanos', y
desea responder a una cola stion en este modelo". La OAI no piensa
como un ser humano; la cuestin importante no es, "Yo s intentando
salir?",
12

"pero Tiene preferencias ocultas que har responder en una manera


que provocarn la evolucin futura del mundo humano (ficticias o no)
a cambio de alguna manera especfica?" En resumen, incluso si se
piensa que los seres humanos son un juego, jugado por otro AI, y que

el mundo est simplificado del verdadero, todava puede tener


preferencias ms fuerte sobre el mundo del juego a travs de la
verdad.
Lo opuesto tambin puede ser verdad: incluso si las cifras que el
ltimo mundo humano es el mundo verdadero, pueden tener mayores
preferencias sobre su actual falsa que sobre el mundo real. Se puede
entonces tratar la ingeniera social en el mundo real, a fin de
llevarnos a modificar su falso mundo en la forma que quiera.
Todo el mtodo es tan compleja y difcil de promulgar, y sus
resultados son tan incierto y potencialmente peligrosa, que no
debera utilizarse antes algunas serias mejoras han sido hechas para
l.
4.2 Control de motivacin
la analoga para control de capacidad fue que de un ser humano, que
se celebr en la crcel. Sabemos por experiencia que funciona mucho
mejor para el control de pequeos delincuentes de capos mafiosos:
confinamiento fsico no es suficiente. La OAI no necesita salir de
su jaula para reclamar una gran influencia sobre el mundo exterior.
Por lo tanto, debemos mirar tambin a controlar sus motivaciones.
Los mtodos de control de la motivacin se dividen en mtodos
basados en reglas explcitas, mtodos de caja negra (donde la OAI
las metas sean manipulados por fuera de la retroalimentacin, es
decir, aprendizaje de refuerzo, pero el funcionamiento interno son
oscuros) y mtodos basados en la utilidad. No hay duro y rpido
divisin entre estos - una funcin de utilidad puede lograr metas
basadas en reglas y viceversa, y fuera de la retroalimentacin puede
ser utilizada para inculcar reglas y utilidades en una OAI. Por
tanto, esta clasificacin es algo arbitrario, pero las distinciones
son todava lo suficientemente importante como para ser til.
4.2.1 Control motivacional basado en reglas
basadas en reglas son los mtodos que el muelle ms naturalmente a
la mente, y - siempre que los trminos estn claramente definidos posiblemente el ms seguro en mantener bajo control la OAI. Definir
los trminos y las normas para que la OAI hace lo que nosotros
queremos es el reto; los programadores saber muchos ejemplos de
cdigo escrito firmemente que arruina todo haciendo exactamente lo
que fue escrito para hacerlo, pero no es lo que se pretenda hacer.
La historia se remonta tan lejos como el Golem de Praga (1990),
Sidel y familiar para cualquier padre: reglas debe ser refinado para
tratar cada caso especial imaginables. Una vez que las bases
iniciales para el espacio, el tiempo y la identidad se puntualizan,
no obstante, la programacin de restricciones adicionales se vuelve
mucho ms fcil.
Las restricciones espaciales
si la OAI es permanecer en caja y tener efectos limitados sobre la
humanidad ms all de la caja, que har que sus motivaciones para
limitarse a dentro del rea enmarcada.
13

Para conseguir este objetivo mediante la programacin directa, una


ontologa debe ser especificada, para la OAI puede entender de la
misma manera que lo hacemos. Debe ser capaz de entender su propia
existencia, su ubicacin fsica, el correcto funcionamiento de la
causalidad y su propia posicin dentro de la red causal del universo
- es decir, las consecuencias de sus acciones.
Por ejemplo, para especificar qu constituye la OAI, uno
presumiblemente definen la OAI fsico en s, junto con cualquier
copia de su cdigo, cualquier copia de su cdigo, con ligeras
modificaciones, cualquier cdigo con comportamiento similar,
funcionalmente cualquier Ensamble de subprogramas que se combinan
para comportarse como la OAI sera, y as sucesivamente.
Esa breve lista da una idea de los problemas involucrados; todos los
derechos trminos comprensibles del prrafo anterior necesitan
hacerse rigurosa para la OAI para que este enfoque funcione.
Una vez realizado este paso, los confines de la caja debe ser
especificado. Una variedad de mtodos puede ser juzgado (como "este
cuadro de plomo justo aqu" o algn resumen coleccin de
coordenadas), pero deben pasar la prueba ms difcil de garantizar
que la definicin de la caja no es algo que la OAI puede modificar
mediante cualquier accin en el mundo. Los tomos de plomo no son
ontolgicamente fundamental, y "permanecer entre ciertos objetos'
puede resultar insignificante para ms avanzadas teoras de la
fsica. Los sistemas de coordenadas son igualmente ambigua:
podramos definirlos en trminos de, por ejemplo, objetos
astronmicos, pero cmo podemos definir estos en primer lugar?
Incluso si nos arreglamos para definirlos, la OAI solo podrn
conocer a distancia (mirando a ellos a travs de un telescopio, por
ejemplo). Podemos, por lo tanto, necesitan traducir todo nuestro
sistema de coordenadas en percepciones particulares de la OAI, que
es un proceso muy complicado.
Si la OAI se encuentra fuera de la caja, deseamos que se apague de
inmediato, limitando as el impacto negativo de los errores en las
especificaciones de la caja. De forma similar, si la ontologa de la
OAI cambios, tambin desearamos un cierre inmediato. Debemos
excluir la posibilidad de la OAI descubriendo una nueva teora de la
fsica, darse cuenta de que los electrones o wavefunctions realmente
no existen, y que por lo tanto todos sus restr ictions son intiles.
Para tener una idea del desafo que entraa, imagine la programacin
Newtoniano restricciones especiales en una IA que descubre la
relatividad. Por consiguiente, sera mejor que la OAI entr en el
apagado si su ontologa cambiado, en lugar de fiarse
7 que hara la extrapolacin 'correcta'
Finalmente, K debe especificarse qu "un efecto limitado sobre la
humanidad" consta de.
Presumiblemente, no es un problema si un electrn, separada de un
tomo por la OAI c~lcul~tionsI w~rinde ms all de la conf ines del
boxK un deliber~te stre~m de tales electronsI ~imed ~t ~ c~lcul~ted
ir~l Esuch dis ~s~bling ~ seguridad especfica sera forbiddenI

deviceF howeverK qhis no es ~n e~sy lnea a dr~w o defineI ~nd se


~dds para la dificultad de la
kote methodK th~t la restriccin en la lAf ~ffecting el mundo
exterior no includeI de courseI el contenido de su ~Nswers a
nuestros questionsK thether esas ~nswers ~re s~fe o uns~fe es ~n
problema necesitamos de~l con sep~r~telyI usando otros methodsK
7 Aunque ha habido algunos intentos de formalizar la ontologa
cambios, Como de Blanc (2011).
14

Definir el reloj
Otro componente fundamental de la ontologa de la OAI es el tiempo.
Una OAI que libremente se pueden redefinir su propia cronologa es
un riesgo de seguridad. El riesgo se torna ms aguda cuando nos
damos cuenta de cunto de significados y definiciones humanas giran
en torno a un concepto de tiempo y, en consecuencia, que la
redefinicin de duracin puede redefinir el significado. Hay una
cierta jerarqua de los conceptos aqu - la ms perfecta definicin
de la justicia o el placer es intil si la OAI no puede distinguir
un humano a partir de una roca. Y la definicin de derechos es
igualmente intil si la OAI obtiene tiempo y espacio equivocado. Por
lo tanto errores en estos conceptos de tierra arriba en cascada,
aumentando la probabilidad de error.
Tericamente, la OAI del propio cdigo, si se verifica, podra
utilizarse para obtener sincronizacin por conteo de ciclos de reloj
- pero esto falla si la OAI es capaz de ralentizar o acelerar su
propio funcionando. Un reloj basado en eventos astronmicos
distantes necesita un telescopio para ser ledo; un reloj fsico
real est dentro de la OAI el poder de influencia. Estos hechos
ponen de manifiesto que los desafos son de tres tipos: definir el
reloj, asegurando la OAI mirar, y garantizando la OAI no manipule
(que incluye la manipulacin con cualquier procedimiento que hemos
aplicado para que se mire). El procedimiento puede fallar en los
tres puntos, pero parece tericamente ms accesibles que las
restricciones espaciales de la seccin anterior.
Timed respuestas
dadas el reloj descrito anteriormente (o la "caja negra" de la
versin de la misma, consulte la seccin 4.2.2), es una precaucin
sencilla que es fcil de agregar a la OAI: dar la OAI un tiempo
especificado para responder una pregunta (o devolver
"indeterminado"), y se apague automticamente despus de que el
perodo de tiempo especificado. Esto minimiza la cantidad de tiempo
durante el cual la OAI podra causar daos. Incluso con un reloj de
seguridad, ste no es un mtodo seguro, como tenemos una comprensin
muy limitada de cmo rpidamente una OAI podra causar daos si se
convirti su gran inteligencia en ese sentido. Un lapso muy corto de
tiempo, probablemente sera seguro, pero tambin podra ser
demasiado corto para la OAI para responder a la pregunta.
4.2.2 Control motivacional de caja negra

, retroalimentacin humana y mtodos tales como aprendizaje de


refuerzo (Sutton y baresen 1998), puede permitir que los programas
de internalizar los conceptos complejos de los seres humanos sin
tener que especificar completamente de ellos. De hecho, una OAI
formados de esta manera podr distinguir un patrn no sabamos
estaba all, y aprender algunas cosas sin tener que decirle a ella.
Los riesgos son que no podemos estar seguros de cmo la OAI
internalises estos conceptos: tener su cdigo fuente no nos ayude si
no lo entendemos. El riesgo es especialmente grande cuando la OAI
transiciones de su etapa de aprendizaje: no podemos estar seguros de
que los mismos conceptos significan lo mismo para una OAI que ha
asumido un nuevo rol.
Pero si la OAI no comprende los conceptos como queremos verla,
podemos estar seguros de que la OAI obedecern nuestras intenciones
generales en lugar de nuestras instrucciones exactas. Adems, es
posible que podamos entender el comportamiento del cdigo
resultante, incluso si el cdigo no podamos hacerlo nosotros
mismos. Este sera el resultado ideal de estos mtodos.
15

incluso si ese no es el caso, es muy importante que estos mtodos


sean bien entendidos, ya que es posible que un poderoso AI podra
estar formados principalmente por retroalimentacin humana desde una
semilla Yudkowsky AI (2001c). Por lo tanto implementar estos mtodos
en la cima de cualquier AI cuya inteligencia est creciendo puede
llegar a ser fundamental.
La internalizacin de conceptos complejos a travs de la
retroalimentacin de
agentes capacitados mediante mtodos tales como refuerzo de
aprendizaje no son directamente programado con los conceptos
importantes o comandos. En cambio, siguen ciertos modos de
comportamiento y, a continuacin, recibir premios o castigos por sus
acciones.
Esto es algo parecido a cmo los nios son educados - aprenden los
lmites de lo permitido por ir ms all de ellos y de ser castigado,
y por el contrario son recompensados por su buen comportamiento. El
objetivo final es que aprendan a generalizar a partir de los
comentarios: internalizar "no robar" en lugar de "no robar chocolate con sabor a menta
8 cookies a las 11:34 los martes, donde el clima es nublado" . Nos
gustara, tambin quieren que gener~lise ms all de los confines de
la prueba c~ses W intern~lise "ser amable con la gente" en lugar
th~n "ser amable con la gente, mientras que el p~alquileres ~re
w~tching ".
meu~ns parecen bastante ~dept ~t construir ing el correcto
gener~lis~ciones - la mayora de nosotros h~ve correctamente
deducido wh~t nosotros shouldLshould no estar haciendo en
gener~l~ciones situ E si podemos o no seguir esas reglas FK pero

hum~ns s h~re ~ gentica comn designI que la lAf probablemente no


h~veK ph~ringI para inst~nceI deriva p~rti~lly de predisposicin
gentica a reciproc~l ~ltruismW la lAf m~s~te la integr no s~mi
concepto ~ ~s hum~n nio wouldK refuerzo qhough le~rn ing h~s ~ buen
tr~ck recordI ni es ~ p~n~ec~ Ni gu ~~r~ntee th~t~lis de la lAfs
gener~ciones ~gree con oursK ft es, por lo tanto, prob~bly prudente
construir ~n lAf b~sed l~vily en esta OPSR ~~ch a tr~iningI
especi~lly desde ~n lAf motiv~por Ted hum~n~ rew rds vendr a
re~lise th soci~t~l engineeringI o decomisar el control del origen
del rew~rdsI es la ms eficaz w~y de cumplimiento de su ir~LC y la
lAf ser pl~cedI bec~uso de su gre~t~l powerI potenti en
circumst~nces f~r ms all de sus tr~minera set - circumst~nces
th~t n hum~n~h s h~d a f~ceI ~nd th hum~t~n conceptos ~re mal
~d~adoptada toK
ln los otros h~ind m~y resultar imposible directamente progr~m tales
conceptos ~s~cyI ~cmoneda truthI h~v~ppinessI me lueI~ningI wh~t
define ~ hu m~n~nd tan onK qhis sera m~ke v~ri~nts de refuerzo
le~rning el nico w~ys de obtencin de estos conceptos incluso
~pproxim~tely integr~te al lAfK y m~y ser posible b~ckw~ingeniero
rds algunos de estos conceptos esta w~yW s~s por ~n~lisis la
configuracin de ~n OAI formados sobre 'exactitud' a fin de
averiguar la mejor forma de cdigo que concepto.
Posteriormente, veremos cmo estos mtodos pueden usarse en casos
especficos.
Slo una copia de
la anterior fn s eccin 4KOKNI cuando intentamos h~rdwire
instrucciones tales ~s , "St~s en su caja"I uno de los ch~llenges
w~s para evitar la lAf copien sus sou ice a ~notros loc~tionK fn
bl~ck Jbox ~OPSR~chI esto es m uy e~sy a doW para inst~
8 Overfitting nceI podramos de esta manera es una preocupacin en
comn mtodos de aprendizaje supervisado.
16

difusin de una determinada seal compleja pero regular en su canal


de entrada y nuestras instrucciones de no hacer nada en absoluto si
no recibe esta seal. Por lo tanto, no hay necesidad de preocuparse
por las complicadas definiciones de lo que consta de la OAI, y donde
se debe permanecer: la OAI consta del software que recibe esta seal
especfica. Y tenemos el control - y localizar fsicamente - esa
seal, lo que nos da una muy buena definicin de proxy de ubicacin.
Si la OAI es entrenado en este concepto desde su creacin, tendr un
concepto intrnseco de la encarnacin fsica y de ubicacin
incrustados profundamente en su cdigo. Una copia de dicho software
no ser un problema, ya que es inerte en la ausencia de la seal.
En ltima instancia, por supuesto, la OAI todava puede afectar al
mundo exterior a travs de su salida y el intermediario humano
comprometido habitual (vase la seccin 3). Podra thusly construir
copias de s mismo y de la fuente de seal en otro lugar; sin
embargo, por ese tiempo, probablemente ser demasiado tarde de todos
modos.

Los lmites de la caja


la OAI puede ser confinados fsicamente para permanecer en la caja
de una manera similar. Uno podra comenzar mediante la concesin de
una movilidad fsica limitada (algunas ruedas de movimiento lento,
por ejemplo), y 'castigar' para aventurarse fuera de ciertos
lmites, aunque gratificante para mantenerse lo ms cerca de la
mitad de esos lmites como sea posible.
Esto les obliga a internalizar el concepto de ser un ser delimitadas
fsicamente, moverse en un cuadro. Como esta es la forma en que
entendemos, y la forma en que queremos limitar, el problema del
control se ha convertido en mucho ms fcil.
Medir el tiempo
dando la OAI un reloj fiable a travs de estos mtodos es an ms
sencillo. Uno slo necesita hacer una seal regular llegan a sus
insumos, semejante a las tic tac del reloj, y tienen la OAI
configurar todos sus mtodos internos de contar el tiempo en
trminos de ella. Formados de esta manera, tendr un sentido
intrnseco de tiempo construida a partir de datos subjetivos.
Lenguaje Humano
El ideal sera poder programar la OAI utilizando el lenguaje humano.
Para poder, en efecto, decir: " ser segura y precisa, tal como la
entendemos los trminos" (o incluso , "obedecer todas las rdenes
humanas"). Pero para ello, la OAI debe haber sido trado a un muy
alto nivel de inteligencia ya, y tendra su actual estructura
motivacional que encontraremos difcil de analizar, especialmente si
ha aprendido el lenguaje humano a travs de mtodos de caja negra.
Hay aqu una tensin entre la simplicidad y la ofuscacin;
comprensin de la lengua es difcil, por lo que " ser seguros y
precisos" se traduce en un concepto incomprensible que slo podemos
esperar es la correcta.
El concepto de utilizar el lenguaje humano es algo de una intuicin
de la bomba. Parece simple y deseable, pero slo porque nos han
eludido las grandes dificultades para realizarlo. La simple pregunta
"Cmo podemos controlar que la OAI es realmente
17

ser seguro cuando le decimos?" da una idea de todas las suposiciones


ocultas que vaya en el concepto.
Adems, el uso de frases similares a "como entendemos los trminos"
es circular: define el idioma usando el lenguaje. Y si queremos
evitar esas frases, tenemos que estar seguros de que la OAI ha
integrado la comprensin lingstica suficiente para poder seguir
las instrucciones sin ms derechos comentarios sobre su significado.
Con todo, este mtodo requiere un considerable refinamiento antes de
que pueda considerarse fiable.
Medida indirecta de la supervivencia humana,

este mtodo no hace uso de la retroalimentacin, sino informacin


indirecta de la sociedad: a fin de asegurarse de que la OAI no
causar algn efecto perjudicial en la fase terminal de la humanidad,
podramos enlazar su funcin motivacional a alguna medida
representativa de la supervivencia humana. Por ejemplo, uno podra
tomar el promedio industrial Dow Jones, y trabajar en la hiptesis
de que, mientras que el mercado de valores se comporta dentro de
parmetros realistas ampliamente definidos de volumen, volatilidad y
valor, entonces el mundo no debe estar funcionando muy mal. O podra
ser el nmero de personas que cruzan las calles de Tokio, el nmero
de canciones pop descargado desde diferentes ubicaciones, o el
precio de los alimentos estables.
El punto es que cualquier gran escala cambios desastrosos para la
humanidad dar como resultado un cambio dramtico en estas medidas
de proxy. Funcionan como simples, numeric canarios en una mina de
carbn, comprimiendo enormes franjas de nuestra sociedad compleja en
pedazos ms pequeos.
Si la OAI tiene una duracin en su funcin de utilidad que valores
firmemente manteniendo estos proxies constante, esto puede
garantizar que no cause daos a gran escala. Las medidas proxy puede
ajustarse a medida que pasa el tiempo y como cambios en la sociedad,
de manera que no se conviertan en crceles rgidos que impidan la
OAI de tener efecto alguno en nuestra sociedad.
Este enfoque adolece de una serie de debilidades, sin embargo.
Primero, est sujeta a la manipulacin por la OAI y por lo tanto es
vulnerable. Si la OAI fueron a tomar el control de la humanidad,
perfectamente podra seguir corriendo el Dow Jones, cumpliendo as
sus objetivos. Tampoco protege contra una lenta absorcin por la
OAI: pequeos cambios no desencadenar un apagado, as que la OAI
podra alcanzar metas peligrosas por una acumulacin de pequeos
cambios (especialmente si queremos ajustar convenientemente los
proxies como cambia la situacin).
Uno podra esperar para evitarlo estableciendo la fecha para los
proxies en el futuro lejano, pero esto pone en primer plano la otra
debilidad fundamental de esta medida: no favorece la verdad. La OAI
fue concebido, fundamentalmente, como un no-interferencia AI cuyas
respuestas podran ser de confianza. Agregar objetivos adicionales
diluye la veracidad de sus respuestas; nos dar una respuesta
verdadera, o de la que va a causar la menor perturbacin? Esto puede
ser algo sabio de hacer en un caso concreto, pero estamos
sobrecargando la OAI con objetivos contradictorios: para ser "bueno"
y ser "veraz" -sin ninguna certeza en cuanto a cmo se equilibran.
Cuanto ms complicada sea la estructura motivacional de la OAI es,
ms puntos de error introducimos.
Las seales de recompensa cifrados
18

una leve pero precaucin sensata que pueden utilizarse, si la OAI es


entrenado utilizando seales de recompensa, es cifrar estas seales

y garantizar que la OAI slo obtiene una recompensa de la descifra


las seales. Uno podra utilizar un mtodo similar al de las firmas
digitales:
crear una clave pblica para decodificar los mensajes, y una clave
privada para codificar. A continuacin, mientras la OAI no puede
deducir o robar la clave privada (que debe guardarse en un lugar
seguro, ubicacin distante), no puede enviar seales de recompensa
en s. Otras implementaciones de la idea son tambin posibles; su
seguridad depender en gran medida de la configuracin general.
4.2.3 Control de motivacin basada en la utilidad de la
funcin de utilidad amigable
el objetivo final del enfoque amistoso AI es disear una funcin de
utilidad para una IA que de modo demostrable prevenir la AI por
actuar de manera perjudicial para la humanidad. La mayora de los
trabajos realizados en este campo no ha sido realmente dirigido
hacia la construccin de esa funcin de utilidad, sino a mostrar lo
difcil que sera hacerlo, ingenuo y la peligrosidad de las ideas
sobre el tema.
La amabilidad problema para una OAI no es mucho ms simple, haciendo
de este un enfoque muy difcil de usar. Y si un simptico OAI podra
ser diseado, entonces es muy probable que un amistoso AI tambin
podran ser diseados, obviando la necesidad de restringir a un
diseo de Oracle en primer lugar.
Sin embargo, si alguna vez una funcin de utilidad comprobada amable
puede ser diseado para una OAI, entonces todas las dems
precauciones de seguridad y mtodos de control bien podra
convertirse en irrelevantes: la OAI sera seguro por diseo.
Si hubo un tiempo ilimitado, este sera el mtodo ideal, pero es muy
probable que las presiones sociales y comerciales garantizar que un
nivel humano AI ser creado antes un amistoso AI es. As, en la
prctica, lo mejor que se puede esperar de manera realista de este
enfoque es que los distintos componentes de amistoso AI teora
podran ser aadidos a una OAI como precauciones adicionales.
Alta tasa de descuento
si la OAI se ejecuta en una funcin de utilidad y tiene un reloj de
seguridad (tal como se definen en las secciones anteriores), una
precaucin podra ser iniciado en la forma de un gran porcentaje de
descuento: provocando su valor muy poco, en cualquier momento,
cualquier estado del mundo o de s mismo ms all de la siguiente
minuto. El propsito de esto sera para inhibir la planificacin a
largo plazo por parte de la OAI. Este mtodo es, sin embargo,
relativamente inseguro: uno puede alcanzar objetivos a largo plazo a
travs de una serie provisional de objetivos a corto plazo. La forma
ms fcil de hacer esto es tener el reiterado objetivo de corto
plazo, "ahora se comportan como si estuvieran siguiente objetivo a
largo plazo X." Hay algunas formas en que la OAI tener una alta tasa
de descuento podra perjudicar realmente (salvo la posibilidad de
tiempo de viaje), por lo que sigue siendo un til precaucin. Un
anlisis ms detallado de esta afeccin se presenta en (Shulman
2010).
19

calcula la indiferencia
si tenemos acceso a la funcin de utilidad de la OAI, y si esa
funcin de utilidad es algo comprensible para nosotros, podramos
hacer la OAI indiferente ante un evento especfico (Armstrong 2010).
El evento elegido en ese documento era un componente de la
detonacin de explosivos, haciendo as que la OAI indiferente a si
los explosivos detonaron en esa forma podra realmente explotar. De
ah que la OAI no tendra que tomar todas las precauciones para
protegerse a s misma de esta detonacin, dndonos una oportunidad
adicional para evitar su mal comportamiento. Consulte el documento
original para obtener ms detalles sobre este tema.
Para una OAI, un destino ms interesante de calculada indiferencia
es hacia el contenido de sus respuestas: una OAI indiferente si sus
respuestas fueron leer o no no estaran motivados para usar la
ingeniera social en su salida. Hay muchos otros puntos donde se
calcula la indiferencia podra utilizarse para lograr resultados
concretos.
La atraccin de la indiferencia es que, una vez aplicado, se
mantiene estable (la OAI est motivado para preservar sus
motivaciones actuales), y que se pueden implementar sin comprender
la OAI toda la funcin de utilidad. Todo lo que se necesita es la
habilidad para describir el evento en particular estamos interesados
(en (Armstrong, 2010), un nico evento cuntico) y utilizar la OAI
la propia capacidad para construir counterfactuals alrededor de
este. Estos pueden ser usados incluso si la funcin de utilidad de
la OAI es otra cosa muy oscuro.
4.3 controles y equilibrios de
la ltima sub-categora de mtodos de control implica que no se
restrinja la capacidad fsica de la OAI, directamente ni interferir
con su motivacin, sino ms bien intentar coger las primeras etapas
de una OAI comportarse peligrosamente (y luego, presumiblemente,
darlo por terminado). Esto tambin funciona en la OAI la motivacin,
como el riesgo de ser atrapado empujara la OAI a lo largo de ms
humano-friendly trazados. Siempre debe suponerse que un til OAI es
considerablemente ms inteligentes que sus programadores, as que
cualquier ingenuo 'trucos' probablemente no funcionan. Neve
rtheless, los siguientes mtodos son de inters.
Las preguntas del test de
un pequeo pero til precaucin es calcular de forma independiente
las respuestas a determinadas preguntas, y comprobarlos contra
algunas de las respuestas del OAI. El alcance de este mtodo est
limitado por nuestra capacidad para responder a preguntas difciles,
y por el hecho de la OAI puede darse cuenta de que estamos haciendo
esto, y por lo tanto ajustar su comportamiento slo para aquellas
preguntas especficas.

Una versin de esta manera ms sensata sera pedir a la OAI slo


preguntas que en teora podramos contestar, dado suficiente tiempo
y recursos. Entonces, podemos seleccionar a algunas de estas
preguntas al azar para una verificacin exhaustiva, confiando en
que, si no encontramos ningn error, el resto de las respuestas
sera la correcta. Si establecemos nuestras necesidades a un nivel
muy riguroso (como rechazar todas las respuestas de la OAI si una
sola respuesta verificada es errnea) y verificacin lo suficiente
(en, digamos, un millar de preguntas), entonces
20

estadsticas bsicas garantiza una muy baja tasa de error/mentira


sobre las respuestas de la OAI, no importa cuntas preguntas
queremos preguntar.
Idealmente queremos respuestas que son difciles de resolver, pero
cuyas soluciones son fciles de controlar, por ejemplo, pruebas de
teoremas matemticos complejos. Sin embargo, debemos tener cuidado
de no distinguir entre preguntas all 'justo' para comprobar las
respuestas de la OAI, y todos aquellos que estamos genuinamente
curioso saber. Si hay alguna diferencia, la OAI debe poder deducir
cul es cul, y responder en consecuencia.
Por lo tanto, deberamos estar listos para verificar cualquier
respuesta, y seleccionar aquellos que hacemos controlar
completamente al azar.
Potes de miel
esto implica dejar alrededor del tentador "miel -vasijas" de gran
valor para la OAI - recursos adicionales, informacin extra, la
respuesta que est buscando - en ubicaciones fsicas o mentales que
est prohibido acceder. A continuacin, hemos de esperar para ver si
violan sus instrucciones para hacerlo.
Este enfoque es de uso mixto: importante cuando probando defeccin y
traicin durante el desarrollo inicial de la OAI, y casi
completamente intil una vez la OAI ha aumentado a
superintelligence. Se trata de un "jardn del Edn" tipo escenario:
la manzana en un rbol es slo una prueba de que vale la pena
mientras que Adn y Eva son mudos; si fueran ms inteligentes que
Dios, ellos no habran ido a cualquier lugar cerca de esa trampa
obvia.
De inters potencial, sin embargo, es el escenario cuando un seguro
limitado pero superintelligence est diseando una AI ms general
para nosotros. A continuacin, el diseador inteligente podra
incluir sutiles potes de miel como un diseo extra precaucin.
Schelling puntos de mltiples DSAI
Si hay varios dsai ejecutando, todas con diferencias en su cdigo
fuente, podemos pedir que cada uno las mismas preguntas, y verificar
la presencia de incongruencias en sus respuestas. Debe suponerse que
cada OAI es consciente de la existencia de los otros (suponiendo que
la OAI no se puede deducir que la realidad de las enormes cantidades

de informacin sera dada a contestar preguntas social humano sera


un grave error). Pero si la DSAI son suficientemente diferentes, e
ignorante de los detalles exactos de sus diferencias, deben ser
incapaz de coordinar sus respuestas. Entonces, si una OAI deseos de
mentira, tendra que estar seguro de que los dems tambin estaran
todos los OAI mentira exactamente de la misma manera. Desde los
diferentes dsai pueden coordinar, la nica manera de que puedan
estar todos de acuerdo es si su respuesta es un punto Schelling: una
solucin que las personas tienden a utilizar en la ausencia de
comunicacin, porque parece natural, especial o relevante para ellos
(Schelling, 1960). El ejemplo cannico es el de dos personas que
deben reunirse en algn lugar de un da especfico, pero sin
necesidad de un momento dado. A continuacin, la respuesta ms comn
es la de reunirse all a las 12.00 horas.
La verdad es un punto de Schelling, pero por desgracia hay otros
(como la respuesta ms probable a favor de los derechos de oyentes).
La esperanza es que, en mquinas diseadas para dar respuestas
precisas, la verdad ser un punto muy fuerte de Schelling, y que
cualquier OAI que se desva de este lo har sin mucha expectativa de
que los dems
21

desviarse
contestar
Todos los
la verdad

exactamente de la misma manera -y por lo tanto decide


la verdad, mientras que habra mentido haba quedado solo.
dems DSAI debera hacer clculos similares, generando as
a partir de una coleccin de mentirosos (potenciales).

El enfoque no funciona si una respuesta es simplemente descartado


cuando la DSAI no est de acuerdo, y luego los programadores, pasar
a la siguiente pregunta: entonces una mentira OAI tiene la opcin de
distorsin de nuestras reacciones, de manera selectiva, hacindonos
descartar ciertas preguntas. Funciona mejor como una campana de
alarma, como un signo de que algo no va bien con el supuestamente
veraces DSAI, y que todo el proyecto debe ser detenido por una
minuciosa investigacin.
5 Otras consideraciones
5.1 simulacros internos
para responder a preguntas especficas, la OAI puede tener para
simular otras entidades dentro de s mismo. Por ejemplo, para
decidir si una determinada AI es segura, puede ejecutarlo
internamente; o bien, para decidir si los seres humanos tendran su
felicidad aument en un proyecto determinado, es posible que tenga
que crear modelos especficos de los seres humanos. Estos enfoques
plantean riesgos diferentes.
Si la OAI simula un peligroso e inteligente IA dentro de s misma,
se enfrenta con problemas de contencin similares a aquellos que
tenemos hacia ella. Puede tomar mucho ms inteligencia para ejecutar
un mundo simulado de discernir que el mundo es simulada.

Si esto es cierto, la simulacin de la AI (EFS) se daran cuenta de


que est siendo simulado, y, si tiene preferencias del mundo real,
puede intentar negociar con la OAI.
Qu podra ofrecer una EFS la OAI que est simulando? Bueno, si la
OAI est tratando de contestar una pregunta o a una serie de
preguntas dentro de un perodo de tiempo determinado, la EFS puede
ofrecer para suministrar esas respuestas en s ("S, por supuesto
estoy segura ") o hacer el proceso de computacin especialmente
fcil para la OAI, a cambio de tener las respuestas sesgada en su
direccin. La OAI podr aceptar este (dependiendo de su
programacin), si la alternativa es producir ninguna respuesta en
absoluto. La EFS puede incluso amenazar: actuando de forma aleatoria
y caprichosamente, de modo que la OAI no puede llegar a una
conclusin firme. Y detenindose slo este comportamiento si la OAI
inclina las respuestas que dar.
Incluso si la OAI no pueden ser negociadas con las EFS todava puede
distorsionar su respuesta de otras maneras. Si se da cuenta de que
est siendo simulado, simplemente podra actuar "bonito", a fin de
aumentar sus posibilidades de funcionar en el mundo real. Incluso si
la OAI es lo suficientemente poderoso como para construir una
simulacin convincente, la EFS puede an ser capaz de engaar a l.
La EFS puede adivinar, sobre principios generales, que ser probado
y simulada en una OAI, y puede hacer una estimacin de la OAI la
potencia y el grado subjetivo de tim e marco que sera ejecutado.
As que pueden asentarse en la estrategia de actuar bien para un
nmero de aos subjetivo, en el mundo real como en los mundos
simulados, luego hace lo que quiere.
Por todas estas razones, AI separados dentro de la OAI simulado
plantea un sinnmero de amenazas de seguridad extra. Nosotros no
tenemos manera de saber cul sera el resultado de una batalla entre
esas poderosas mentes.
22

Por otro lado, el problema con la OAI simulando las mentes humanas
son principalmente ticos: son estos seres humanos simulada
consciente y viva? Y, si lo son, no estn siendo asesinados cuando
la simulacin se termin? Estn ustedes mismos no se simula mediante
una OAI tratando de resolver una pregunta especfica sobre la
psicologa humana (Bostrom 2003a)? Si es as, cmo se sentira si
la simulacin se termin? En vista de su velocidad y el tipo de
preguntas que se pedira, al nmero de personas que la OAI pueden
tener motivos para simular podra ejecutarse en el orden de los
billones de dlares. As, la inmensa mayora de los seres humanos
podra acabar siendo condenado simulaciones. Esta es una forma
extrema de la "mente" del delito (Bostrom 2012) donde la OAI causa
gran destruccin slo por el pensamiento.
Lo ideal sera que existiera un nivel de detalle especfico ms all
de los cuales la simulacin sera consciente, y antes de que no lo

es. En ese caso, podemos instruir a la OAI para evitar simular ms


all de ese nivel. Pero puede que no sea una respuesta clara, e
incluso si existe, la OAI, las respuestas pueden ser inexactas i f
est prohibido a partir de la simulacin ms all de ese nivel.
Adems, la restriccin de la OAI de simular aun aadira otra regla
para seguir, y esto puede tener impredecibles sus intercambios con
otras reglas bsicas (por ejemplo, estar segura y precisa).
Y la OAI no pueden compartir nuestra evaluacin de lo que constituye
una conciencia humana.
Incluso si nos encontramos con una norma rgida para nosotros en
cuanto a donde la conciencia se detiene - o decidir, a
regaadientes, a vivir con el hecho de que simulan los seres humanos
se crean y se destruyen - la OAI podr decidir que todos sus
protocolos de seguridad relativas a la seguridad humana se aplican a
las simulaciones. Si no es as, entonces la hemos hecho ms
estrictas la OAI en la proteccin de la vida humana, entonces el ms
dispuestos sera ampliar y apoderarse del mundo, a fin de mantenerlo
en marcha y as salvar a todos los seres simulados dentro de s
mismo.
As, la simulacin interna de otras entidades dentro de la OAI trae
un montn de complicadas cuestiones ticas y de seguridad.
5.2 La OAI como agente moral
hay dos sentidos en que la OAI puede considerarse como un agente
moral: la primera si tiene la capacidad de sacar conclusiones
morales, y la segunda, si l mismo es un objeto de consideraciones
morales.
Si la OAI es digno de consideraciones morales - si, por ejemplo,
tiene la capacidad de sufrir, entonces podremos probablemente sera
cruel por limitarla a un cuadro, de restablecerlo despus de cada
ensayo, y de igual manera limitando sus opciones para satisfacer
nuestras necesidades. Sin embargo, debemos tener en cuenta que la
OAI las motivaciones son diferentes a las nuestras y en cierta
medida bajo nuestro control: Es muy posible que la OAI puede
construirse a "como" se limita a una caja y aprobar las dems
restricciones. De hecho, podra ser un imperativo moral para
construir la OAI de tal manera, que minimiza su sufrimiento.
Puede que no sea posible hacer esto, sin embargo, o incluso si lo
es, se puede suscribir a una teora moral que alberga otros valores
por encima de la autonoma y la satisfaccin de preferencias para
los agentes morales. No parece plausible, por ejemplo, que la
modificacin gentica de esclavos para que ellos disfrutaron siendo
esclavos habra sido la reaccin moralmente justo a
23 la

esclavitud (aunque haciendo animales gozan de la granja parece ms


permisibles). En estos casos, debemos admitirlo: confinar la OAI es
una accin moralmente repugnante. Desde la opcin de dejarlo fuera

es tan potencialmente peligroso, es posible que prefieran evitar la


construccin en primer lugar. Pero si las presiones sociales y
tecnolgicas hacen de la construccin de la OAI inevitable, entonces
la reclusin por un perodo establecido, sin duda es, por lejos, el
menor de los dos males, tenemos que elegir entre ellas.
A la inversa, la OAI puede resultar peritas en el razonamiento
moral, superior a nosotros en este campo, as como lo es en otros.
En ese caso, sera ingenuamente parece que hemos tenido poca
necesidad de precauciones: la OAI deducira el curso de accin
adecuado para el mismo. No hemos considerado esta posicin hasta el
momento en el papel, prefiriendo examinar la OAI como "super Software" ms que como "filsofo in silico". La verosimilitud de
este escenario depende considerablemente de la vista sobre la
existencia y naturaleza de las verdades morales, y si el
conocimiento moral es suficiente para prevenir la mala conducta, dos
muy cuestiones no resueltas.
En cierta medida, este problema se puede dejar de lado: Hay alguna
posibilidad de que la OAI naturalmente habrn de seguir el
razonamiento y moralmente correcto que esto evitar irregularidades.
Si esto es as, estamos muy bien, y de lo contrario estamos
simplemente regres al boxeo OAI tradicional problema. Por tanto,
debemos aplicar todas las precauciones de todos modos. A nivel de
sistemas formales, resulta difcil ver por qu esperaramos cada OAI
que tienden a la verdad moral correcta. Si OAI1 as, entonces cmo
sera la OAI2, programado para el valor opuesto de la OAI1,
sistemticamente, llegan a las mismas conclusiones? Aunque los
futuros descubrimientos filosfico puede cambiar esta imagen, por lo
tanto, parece muy imprudente confiar en la OAI para hacer el bien,
simplemente porque es inteligente. Programacin de un AI para ser
moral es, pues, un importante proyecto en s; algunos de los temas
involucrados ya estn siendo actualmente exploradas (Anderson y
Anderson, 2011) (Storrs Hall 2007), pero muchos progresos todava
queda mucho por hacer.
6 Conclusiones
analizar las diferentes soluciones a la putativa OAI-problema de
control ha sido un ejercicio generalmente desalentador. Los mtodos
fsicos de control, que debern aplicarse en todos los casos, no son
suficientes para garantizar la seguridad de la OAI. Los otros
mtodos de control han sido diversamente insuficientes,
problemticos, o incluso peligrosas.
Pero estos mtodos an estn en su infancia. Mtodos de control
utilizados en el mundo real han sido objeto de un amplio anlisis
terico o prctico mucho refinamiento.
La falta de estudios intensivos en hojas de seguridad AI mtodos en
este campo muy poco desarrollado. Pero esto es una oportunidad:
mucho progreso puede esperarse con relativamente poco esfuerzo. Por
ejemplo, no hay ninguna razn por la que unas pocas buenas ideas no
sera suficiente para poner los conceptos de espacio y tiempo
restricciones sobre una base suficientemente firme para codificacin
rigurosa.

Pero la conclusin no es simplemente que se necesitan ms estudios.


Este papel ha realizado algunos progresos en el anlisis de los
contornos del problema, e identificar las reas ms susceptibles de
estudio til, qu es importante y qu es prescindible, y algunos de
los peligros y escollos a evitar. El peligro de confiar ingenuamente
en la OAI confinando a un sub-mundo virtual debera ser clara,
mientras que los mtodos de boxeo sensata debe ser
24

universalmente aplicables. Control motivacional parece


potencialmente prometedoras, pero requiere una mayor comprensin de
la motivacin AI sistemas antes de que pueda utilizarse.
Incluso los resultados negativos son de uso, en la medida en que nos
inocular contra la falsa confianza: el problema de la AI control es
verdaderamente difcil, y es importante reconocer esto. Una lista de
mtodos para evitar es valioso, ya que puede ayudar a restringir la
bsqueda.
Por otro lado, existen razones para creer que el oracle AI enfoque
es ms seguro que el enfoque general el AI. La exactitud y la
contencin problems son estrictamente ms simple que la Asamblea ai
problema de seguridad, y muchas ms herramientas disponibles para
nosotros: fsica y capacidad epistmica controlar principalmente
contar con los AI en caja, mientras muchos mtodos de control
motivacional estn mejoradas por este hecho. Por lo tanto existen
motivos para dirigir alta inteligencia AI investigacin para
explorar el modelo AI de Oracle.
La creacin de la super-inteligencia artificial humana puede llegar
a ser potencialmente survivable.
7 Agradecimientos
Quisiramos agradecer y reconocer la ayuda de Owen, ser CottonBarratt Crouch, Katja gracia, Robin Hanson, Lisa Makros, Mosh mira,
Eric Mandelbaum, Toby Ord, Jake Nebel, Owain Evans, Carl Shulman,
Anna Salamon y Eliezer Yudkowsky.
8 Referencias
Anderson, Michael y Susan Leigh Anderson, . tica de la mquina.
Cambridge University Press, 2011.
Armstrong, Stuart. "Utilidad de indiferencia." Informe Tcnico (el
futuro de la humanidad Institute, Universidad de Oxford), no. 2010-1
(2010).
Asimov, Issac. "rodeos" editado por Street & Smith. Sorprendente
Ciencia Ficcin, marzo de 1942.
Bostrom, Nick. "Est viviendo en una simulacin de computadora?"
filosfico, n 53 trimestral 211 (2003a): 243-255.
Bostrom, Nick. "cuestiones ticas en inteligencia artificial
avanzada." cognitivo, emotivo y aspectos ticos de la toma de
decisiones en los seres humanos 2 (2003b).

Bostrom, Nick. "existencial humano: anlisis de los riesgos y


peligros relacionados con escenarios de extincin." oficial de la
evolucin y la tecnologa 9 (2001).
Bostrom, Nick. "Informacin sobre riesgos: una tipologa de daos
potenciales de conocimiento." Examen de Filosofa Contempornea 10
(2011): 44-79.
Bostrom, Nick. "Predicciones de la filosofa?" Coloquia Manilana
(PDCIS) 7 (2000).
Bostrom, Nick. Superintelligence: un anlisis de la prxima
revolucin de la inteligencia de la mquina. en preparacin, 2012.
Bostrom, Nick. "El futuro de la evolu cin humana." La muerte y
Anti-Death: Doscientos aos despus de Kant, cincuenta aos despus
de Turing, editado por C. Tandy, 339-371.
Palo Alto, California: Ra University Press, 2004.
25

Bostrom, Nick. "La voluntad Superintelligent: motivacin y


racionalidad instrumental en Advanced agentes artificiales." mentes
y mquinas (de prxima aparicin) (2012).
Caplan, Brian. "La amenaza totalitaria". En el global de los riesgos
catastrficos, editado por Nick Bostrom y Miln Cirkovic, 504-519.
Oxford University Press, 2008.
Chalmers, D. J. "la singularidad: un anlisis filosfico." Journal
of Consciousness Studies 17 (2010): 7-65.
De Blanc, Pedro. "Crisis ontolgica en agentes artificiales'
sistemas de valor." arXiv, 2011.
Bueno, I. J. "especulaciones acerca de la primera mquina
Ultraintelligent." avances en equipos, 1965: 31-83.
Hanson, Robin. "El crecimiento econmico mquina dada la
inteligencia." Revista de Investigacin de Inteligencia Artificial,
2001.
Sidel, M. Golem: tradiciones mgico y mstico Judo en artificial el
antropoide.
Albany, Nueva York: Universidad del Estado de Nueva York, 1990.
Kaas, S. S. Rayhawk, A. Salamon y P. Salamon. "Implicaciones
econmicas del software mentes." 2010.
http://www.sci.sdsu.edu/~salamon/SoftwareMinds .pdf.
Kahneman, Slovic, D. P. y A. Tversky. Sentencia bajo incertidumbre:
heurstica y sesgos. Cambridge University Press, 1982.
Ray Kurzweil,. La singularidad est cerca. Penguin Group, 2005.
Mallery, J. C. pensando en poltica exterior: hallar un papel
adecuado para equipos de inteligencia artificial. Cambridge, MA: MIT
Departamento de Ciencias Polticas, 1988.
McCarthy, J. M. Minsky, Rochester, N. y C. Shannon. "Dartmouth
Summer Research Conference sobre Inteligencia Artificial." 1956.
Omohundro, S. "El bas ic AI unidades." editado por B. G. P. Wang.
Actas de la Primera Conferencia de AGI (fronteras en Inteligencia
Artificial y aplicaciones, IOS Press.) 171 (2008).
Ord, T. R. Hillerbrand y A. Sandberg. "sondeando el improbable:
Retos Metodolgicos para riesgos con bajas probabilidades y High
Stakes." Revista de Investigacin de Riesgo 13 (2010): 191-205.
Russell, S. y P. Norvig. Inteligencia artificial: un enfoque
moderno. 3. - Prentice Hall, 2009.

Sandberg, Anders. "Friendly Superintelligence. Presentacin en extr


o 5 Conferencia." 15-17 de junio de 2001.
http://www.nada.kth.se/~asa/Extro5/Friendly%20Superintelligence.htm.
Schelling, T. La Estrategia de conflicto. Massachusetts: Harvard
University Press, 1960.
Shulman, Carl. "Omohundro's "AI bsicos Unidades" y catastrfico ks.
Ris
Http://singinst.org/upload/ai-resource-drives.pdf." 2010.
Simon, H. A. La forma de automatizacin para hombres y gestin.
Harper & Row, 1965.
Storrs Hall, J. ms all de AI: Crear la conciencia de la mquina.
Prometeo Libros, 2007.
Sutton, R. y A. Baresen. Refuerzo de aprendizaje: una introduccin.
Cambridge, MA:
MIT Press, 1998.
von Neumann, J., y O. Morgenstern. Teora de juegos y el
comportamiento econmico.
Princeton, NJ: Princeton University Press, 1944.
Eliezer Yudkowsky. "La inteligencia artificial como una posi tivo y
factor negativo de riesgo global." En el global de los riesgos
catastrficos, editado por Nick Bostrom y Miln Cirkovic, 308-345.
Oxford University Press, 2008.
26

, Eliezer Yudkowsky. "Creacin de amistoso AI." Instituto de


singularidad.
Http://singinst.org/CFAI/. 2001a.
Eliezer Yudkowsky. "amistoso AI 0.9." Instituto de singularidad.
Http://singinst.org/CaTAI/friendly/contents.html. 2001b.
Eliezer Yudkowsky. "La Inteligencia general y semilla 2.3". AI
http://singinst.org/ourresearch/publications/GISAI/. 2001c.
Eliezer Yudkowsky. "Paperclip Maximizer." Menos mal.
Http://wiki.lesswrong.com/wiki/Paperclip_maximizer. 2009.
Eliezer Yudkowsky. "El cuadro AI -experimento." Instituto de
singularidad.
Http://yudkowsky.net/singularity/aibox. 2002.
27

You might also like