22 de marzo de 2012

Algo latente

Las limitaciones del modelo lineal en Psicometría llevan a desarrollar, a partir de la década de los 50, un nuevo paradigma dentro de la medición psicológica. Este nuevo paradigma, la Teoría de la Respuesta al Ítem (TRI), se centra en la consideración de lo medido como "latente" o inobservable, haciendo un énfasis especial en este punto, por lo que también se conoce como modelo fuerte de la puntuación verdadera (por contraposición al modelo débil que sería el modelo lineal del que hablamos en el post anterior).

En TRI, un modelo matemático relaciona la probabilidad de tener éxito en una tarea con el rasgo latente del sujeto (el equivalente a la puntuación verdadera y, en términos roleros, la característica o habilidad apropiada para la acción). El modelo matemático puede tener, en principio, cualquier forma, siempre que cumpla las siguientes condiciones:


  • Estar acotado en 0 y 1, es decir que la probabilidad mínima de tener éxito es 0 y la máxima es 1 (vamos, lo que viene siendo los límites propios de la probabilidad.
  • Ser monótono creciente, es decir, que conforme aumente el rasgo latente, aumente la probabilidad de tener éxito. Esto tiene todo el sentido: a mayor fuerza, mayor probabilidad de levantar un cierto peso, a mayor habilidad disparando, mayor probabilidad de acertar un blanco, etc.
  • Estar caracterizado por determinados parámetros de la tarea (esto, en realidad, no es cierto, ya que hay modelos de TRI no paramétricos, pero para nuestros fines interesa que sea así). Es decir, que la probabilidad de tener éxito depende del nivel de rasgo del sujeto y también de alguna propiedad de la tarea. Para nuestros fines, la dificultad de la tarea debería ser tenida en cuenta, así que perfecto.


De esta forma, sabiendo cuál es el nivel de habilidad del sujeto y la dificultad de la tarea puede calcularse la probabilidad de éxito usando el modelo matemático correspondiente. Si ahora quiero saber que es lo que pasa finalmente solo tendría que generar un número aleatorio de una distribución uniforme entre 0 y 1 y compararlo con la probabilidad de éxito: si el número es menor o igual que la probabilidad, la acción tiene éxito. Si el número es mayor, la acción falla.

Nótese que un número aleatorio generado de la distribución uniforme (0, 1) sigue una distribución lineal, pero eso no significa que un sistema de resolución de tareas así planteado sea lineal. Por contra, dependerá realmente de cuál sea modelo matemático que relaciona la habilidad del sujeto con la probabilidad de éxito en la tarea. Si dicho modelo es lineal, entonces sí, será un sistema lineal, pero esto no es lo normal.

De hecho, los primeros modelos de TRI presentados eran modelos gaussianos. Sí, se trata de un enfoque perfecto para las condiciones planteadas, ya que la función de distribución de probabilidad de la curva de Gauss es asíntotica en 0 y 1, es monótona creciente y admite parámetros para determinar su localización, su tasa de crecimiento, etc.

Los modelos gaussianos se abandonaron rápidamente porque eran matemáticamente difíciles de tratar (requieren cálculo integral, son difíciles de derivar... en fin, un chocho) y se propusieron en su lugar modelos logísticos, con la singularidad de que usando una constante de escalamiento se producía una aproximación casi perfecta a los modelos gaussianos.

El modelo logístico más sencillo es el de un parámetro (precisamente, la dificultad), también llamado modelo de Rasch y tiene la siguiente expresión:

Donde:
D es la constante que aproxima el modelo logístico al normal, cuando D = 1.701
z es el rasgo latente del sujeto (su puntuación en la característica o habilidad) expresada en puntuaciones típicas (media 0 y desviación típica 1)
b es la dificultad de la acción, expresada en las mismas unidades que z

La función tiene, por cierto, esta pinta:

Donde las dos curvas representarían acciones con distinta dificultad (es decir, distinto valor de b). Como puede verse, la probabilidad de éxito crece en función del nivel de habilidad z (en el gráfico aparece como Ability). La línea continua representa una acción más compleja, mientras que la línea punteada representa una acción de dificultad media.

¿Nos sirve esto para nuestro sistema de juego "perfecto"? En la próxima entrega veremos como.

6 de febrero de 2012

Con el Modelo Lineal General hemos topado

El Modelo Lineal General (MLG) es uno de los más utilizados en Ciencias Sociales y de la Salud para explicar la variabilidad de la conducta. Sus aplicaciones son diversas, pero en lo que a nosotros nos interesa, se expresa para explicar la medida del comportamiento de una persona de la siguiente manera:

X = V + E

Dónde X es el comportamiento observado o exhibido por la persona, V una expresión auténtica e invariable de dicho comportamiento y E un error aleatorio. Por ejemplo, un señor tiene una Fuerza que le permite levantar 300 kg (V) como máximo, sin embargo, intenta levantar 290 kg y no lo consigue. mientras que en otro momento intenta levantar 310 kg y si lo consigue. Estas diferencias entre la expresión de la Fuerza de este señor tan musculoso en cada momento están debidas a los errores aleatorios, es decir E: con un E positivo el señor levanta más peso del que debiera, con un E negativo, levanta menos.

La cosa en la realidad es que rara vez sabemos cuales son los valores V de las personas, sino que precisamente lo que tratamos es de estimarlos a partir de los valores X demostrados en diversos momentos, usando indicadores de tendencia central y esas cosas. El MLG, apoyado sobre una serie de supuestos, nos permite dar el salto de los observado (X) a lo latente (V).

Pero volvamos a los juegos de rol. En los juegos de rol, los valores V son conocidos, ya que son las puntuaciones de los personajes en sus características, habilidades, etc. ¿Qué separa entonces los valores V de los X? El error aleatorio E que en los juegos de rol es... efectivamente, el resultado de una tirada de dados.

Como estaréis viendo ya, el quid de la cuestión está en los errores, ya que las puntuaciones V son intrínsecas de los sujetos y las X son simplemente la suma de X más E... por eso se llama modelo lineal general, vaya. Por esa razón se establecen una serie de supuestos sobre los errores, que quizás puedan darnos ideas en nuestra búsqueda del sistema de juego perfecto.

El primer supuesto, es que el valor esperado de los errores es cero. Es decir, hay errores por defecto y por exceso y estos tienden a anularse entre sí. Rolearamente, esto nos obligaría a tener dados que suman y dados que restan (por ejemplo, la solución 1d6 - 1d6 que usan Feng Shui, sLAng y Eyes Only, o cualquier combinación de dados Fudge). Daos que si no hacemos esto, es decir, si el valor esperado de los errores es distinto a cero, entonces X y V estarán expresados en escalas distintas (concretamente, en escalas centradas en valores distintos). Esto último no es un problema si lo tenemos en cuenta.

El segundo supuesto es que la distribución de los errores es normal, es decir sigue la forma de la campana de Gauss, nuestra vieja amiga. Esto es porque los errores son variables aleatorias continuas y, realmente, son la suma de muchas pequeñas causas diferentes: Teoría del Caos pura y dura. Al ser la suma de muchas variables aleatorias continuas, el Teorema Central del Límite nos lleva a suponer que seguirán una distribución normal. En el caso rolero, como no son infinitas las causas, sino que simulamos con un puñado de dados ese efecto y, además, son discretas, pues no podrán seguir la deseada distribución gaussiana, pero no importa. Posiblemente nos satisfaga igualmente cualquier otra distribución no lineal.

Y llegamos al tercer punto, que es la relación que existe entre los errores y las puntuaciones verdaderas. Esta relación puede existir (es decir puede que las personas con puntuaciones más altas puedan hacer proezas más separadas de su propia fuerza) o puede no existir (el error varía igual para ratones, hombres y elefantes). Lo más realista es lo primero, pero lo segundo es lo que los juegos de rol tienden a suponer... y algunos modelos científicos también (estos vienen a llamarse modelos débiles de la puntuación verdadera).

Voy a explicar esto un poco mejor con un ejemplo. Supongamos que dos personas tienen fuerza suficiente para levantar, en condiciones normales, 50 y 250 kilos, respectivamente (es decir, sus puntuaciones Verdaderas, expresadas en kilogramos que pueden levantar, son 50 y 250). Ahora las dos tratan de levantar 50 kg más de lo que debieran (100 y 300 kg, luego las dos necesitan un E de 50 kg para lograr su objetivo). ¿Cuál es más probable que lo consiga? Si asumimos que no hay relación entre V y E, entonces las dos tienen las mismas probabilidades de levantar esos 50 kg extra. Sin embargo, el sentido común (y la experiencia empírica) nos dicen que esos 50 kg extra suponen un reto mayor para la primera persona (¡tiene que levantar el doble de su fuerza!) que para la segunda. La mayoría de los sistemas de juego no tienen en cuenta esto, es decir asumen que no hay relación entre V y E y son por tanto modelos débiles de la puntuación verdadera.

No pasa nada, hablaremos de modelos fuertes de la puntuación verdadera en otra entrada posterior, por ahora vamos a conformarnos con estos modelos, que si han servido a la Psicometría durante la tira de años no veo porque no van a valernos a nosotros.

En realidad, sólo nos queda determinar una cosa y es la relación que existe entre X y E, es decir, que grado o proporción de X se debe a V y que parte a E. Si queréis, es como decir que parte de la ejecución de la acción (X) es talento o capacidad de la persona (V) y que parte se debe a la suerte (E). Esto podría llevarnos al concepto de fiabilidad, expresado como cociente de varianzas... pero igual nos metemos en un jardín que escapa de las modestas pretensiones de este blog. Así que digámoslo llanamente: se trata de determinar el grado en que los dados intervienen en el juego.

Para esto, un consejo práctico: construye tablas de probabilidad de los resultados que pueden obtener dos personajes, uno con la puntuación mínima (humana o equivalente en el juego), otro con la puntuación media y otro con la puntuación máxima (todas humanas o de lo sean los personajes). ¿Cuántas veces debería superar el personaje con la puntuación menor al de la puntuación media? ¿Cuántas veces al de la puntuación mayor? No hay respuesta única para esto, y dependerá del nivel de epicidad que quieras darle a tu sistema (en un sistema épico, aquellos con puntuaciones bajas deberían tener probabilidades decentes de superar a los que tienen puntuaciones altas), pero en un sistema de realismo medio, podríamos suponer que una puntuación baja sólo debe superar a una media en torno al 10% de las veces, mientras que una baja a una alta solo debería superarla el 1% de las veces.

Buscar la combinación de dados que haga esto dependerá de la escala en la que estemos expresado las puntuaciones V y de una cierta maña con la combinatoria. ¿Os animáis a buscar ejemplos que cumplan estas condiciones? Un consejo: usar dados de 10 facilita los cálculos.

7 de enero de 2012

¿Gaussiano? Me temo que no

Pasada la resaca navideña, estoy de vuelta para compartir algunas de mis ideas e inquietudes sobre sistemas de juego y, sobre todo, la estadística subyacente. Hoy quiero hablar un poco sobre funciones de probabilidad lineales y no lineales en las tiradas de dados.

Ya sabemos que la función de probabilidad relaciona los valores de la variable aleatoria (en este caso el resultado de los dados) con su probabilidad de obtenerlos. Además, la función de distribución de probabilidad relaciona esos valores con la probabilidad de obtener un valor igual o menor (es decir, es la función de probabilidad acumulada). Pues bien, una función de probabilidad es lineal si la probabilidad de todos los valores posibles es la misma o, lo que es equivalente, si la función de distribución traza una linea recta. 

En los juegos de rol, son lineales todos los sistemas que utilizan un único dado (incluyendo un dado de cien, los clásicos sistemas de percentiles). Pero en el momento en que empezamos a sumar dados o escoger la mediana de una distribución generada lanzando varios dados (escoger el valor central de los dados, vaya) las leyes de la combinatoria entran en nuestras vidas retorciendo la funciones de probabilidad y distribución. Estos son los sistemas no lineales.

Hay en el mundillo de los juegos de rol una tendencia desmedida y profundamente errónea de llamar gaussianos a los sistemas no lineales. Sería algo así como llamar coche a todo lo que tenga ruedas o coca-cola a todas las bebidas. Es más, en realidad sería como llamar coca-cola a todos los líquidos comestibles que no son bebidas (como el vinagre o el aceite). ¿De qué estoy hablando? Expliquemos que es realmente un modelo gaussiano para entenderlo.

Estudiando diversas variables físicas (como la estatura o el peso) y otras de carácter psicosocial (como la inteligencia o la extroversión), se comprueba que existe una forma característica para dichas distribuciones. Es una forma de campana, simétrica que viene a tener esta pinta:



El descubrimiento de esta función se atribuye a Gauss (y por eso se lleva su nombre) y está relacionado con que las variables descritas pueden definirse por la suma de causas independientes y, por tanto, ser explicadas por el teorema central del límite. Pero no voy a seguir por este camino. Quedémonos con que es una forma muy frecuente para ciertas variables.

Ahora bien, la forma de la campana de Gauss (también llamada distribución normal) sigue una determinada expresión matemática (que nos vamos a ahorrar aquí) y, lo más importante de todo, se aplica únicamente a variables aleatorias continuas. De hecho, no es una función de probabilidad (ya que las variables aleatorias no tienen función de probabilidad: si hay infinitos valores, no puede calcularse la probabilidad de obtener un valor concreto, ya que seria necesariamente cero), sino que es una función de densidad de probabilidad: representa la probabilidad con el área que hay bajo la curva, no con su altura. Si escogemos dos valores cualquiera y comprobamos cuál es el área encerrado entre ellos (calculando la correspondiente integral definida) estaremos obteniendo la probabilidad de obtener un valor entre esos dos puntos.

Como nuestras tiradas de dados son necesariamente discretas, no pueden seguir la curva de Gauss, aunque pueden aproximarse a ella mediante polígonos, habitualmente histogramas... Pero esa es otra historia. La cuestión es que esa aproximación sólo se consigue sumando muchos dados (¡por el teorema central del límite!), tantos que la suma de valores empieza a parecer infinita y por tanto puede tratarse como continua... Vamos, que es un caso hipotético que en nuestra mesa de juego no tiene ninguna cabida.

Y ahora viene la traca final: cuando diseñamos un sistema de juego, normalmente nos preocupa esa aproximación a lo gaussiano por cuestiones de realismo. Si en la realidad hay tantos procesos que siguen la distribución normal, entonces parece que obtendremos un realismo mayor si nuestro sistema de juego se aproxima a la distribución gaussiana. Esto es cierto, en espíritu. Porque en la realidad no hay tiradas de dados y lo que se distribuye siguiendo la campana de Gauss son los procesos o sucesos propiamente dichos, no un valor que se les añada o compare. Donde quiero ir a parar es que realmente es la resolución de éxito o fracaso la que debería tener una función de probabilidad no lineal, no necesariamente la tirada de dados. 

En ciencia, lo más parecido que hay a una tirada de dados es la generación de números aleatorios en estudios de simulación. Pues bien, cuando se quiere comprobar en un estudio de simulación si un suceso ocurre o no, lo que se hace es generar un número aleatorio entre 0 y 1 (siguiendo la llamada distribución uniforme, una distribución lineal para variables continuas) y comparar el valor obtenido con la probabilidad del suceso. Si la probabilidad es menor o igual, el suceso ocurre. ¿A qué os suena esto? Efectivamente, amigos, esto se parece bastante a los sistemas de percentiles (que usan como sabemos 1d100 y son, por tanto, lineales). Y entonces, ¿dónde queda el asunto gaussiano que tanto nos preocupaba hace un párrafo? ¿Qué pensáis?