Buscador

sábado, 12 de julio de 2008

Peleándome con un AMD

Aprovechando que suelo guardar un changelog de las tareas informáticas domésticas copio y pego. Pero antes las presentaciones.

-Blacbox, es el nombre de máquina (o hostname) que tiene este PC en la red de casa. Es un PC basado en procesador AMD con un par de Gigas de RAM, y sistema operativo Linux instalado, concretamente Debian. Es servidor de ficheros, de impresora, amule y ssh para administración remota. En los ratos libres la CPU trata de encontrar inteligencia extraterrestre buscando patrones de datos recibidos desde el radiotelescopio de Arecibo. Para más información, la propia web del SETI.

Y ahora si que si...

"02:48 06/07/2008

+ Detectado malfuncionamiento de Blackbox. Se cierran aplicaciones inesperadamente y sin dar error.

He pasado un primer test de memoria con el memtest86 y ha detectado 11 errores en distintas pruebas en la misma dirección de memoria. He quitado el segundo DIMM pero sigue con los mismos síntomas. Ahora mismo se está pasando otro test de memoria con un solo DIMM para descartar fallos. Si no ninguno, la siguiente prueba es arrancar con un LiveCD y comprobar la estabilidad del sistema.

21:08 07/07/2008

Después de pasarle un test de memoria de más de 24 horas (y no detectar ningún fallo con un solo DIMM), lo cancelé y dejé la máquina apagada toda la noche.He probado un rato con un livecd de ubuntu y no ha dado problemas. Ahora mismo lo iniciado con la Debian que tiene instalada y lo he dejado con BOINC y amule corriendo (ambos hacen un usu intensivo de CPU y memoria).

01:21 09/07/2008

Después de un rato probándolo sigue fallando mostrando los mismos síntomas. Le he vuelto a pasar el test de memoria, ahora con los DIMMs intercambiados de posición para ver si lo que fallaba el DIMM o era el slot, esas cosas a veces pasan, y definitivamente lo que está estropeado es el DIMM. Ahora bien, ha de tener algún fallo más porque usando solo el DIMM bueno no hemos arreglado nada aparentemente.

Me gustaría probar con otra CPU pero no dispongo de ninguna. Es solamente para descartarlo rápidamente y seguir probando otras cosas porque no creo que sea de la CPU. Si fuera del micro daría errores más inesperados y graves, no simplemente cerrarse aplicaciones aisladas.

Las aplicaciones que fallan son siempre de entorno gráfico. Por ejemplo siempre falla al arrancar el frontend del APT para KDE. Sin embargo si hago un apt-get update / upgrade desde la consola nunca falla.

Visitando la web de AMD en relación a mi micro había un documento titulado algo así como "Fallos bajo Linux utilizando tarjetas gráficas AGP y micros AMD..."

Sospecho que el problema puede ser por alguna actualización del driver de la tarjeta gráfica o del kernel de linux o alguna de sus librerías "casi ná".

Así que las siguientes pruebas van a consistir en quitar la tarjeta gráfica nvidia, desintalar su driver y utilizar en su lugar la tarjeta que viene integrada en placa. A ver que pasa...

22:58 10/07/2008

He quitado la tarjeta gráfica AGP (una GeForce G4mx440), reconfigurando el fichero del xorg para la SiS 741 y sigue pasando lo mismo. Pienso que aunque no esté usando el driver de nvidia puede que esté cargado como múdulo en el kernel y de alguna manera siga estorbando. Cometo el error de desintalar las X por si acaso hubiera alguna librería de gráficos dando problemas. Digo que cometo un error porque podría haber comprobado eso mismo arrancando con un livecd y me hubiera ahorrado desinstalaciones innecesarias (y posiblemente instalaciones). Al probar con un livecd sigue fallando en lo mismo...

Con las pruebas realizadas puedo llegar a las siguientes conclusiones:

    • No es un fallo de la instalación ni de la configuración del software.

    • No es un problema de incompatibilidad del software.

    • No es un fallo de memoria

    • No es un fallo del disco duro.

    • Puede haber un problema de hardware en el microprocesador.

    • Puede haber un problema de hardware en la placa.

El siguiente paso, comprar un microprocesador.

He encontrado lo que buscaba un micro AMD, socket 462, y con un FSB de 400 para aprovechar al máximo las posibilidades de la placa. Además va a 2,2Ghz, 200 Mhz más rápido que el actual. A este vendedor ya lo conozco bien.

17:34 12/07/2008

Pues si que tenía un microprocesador para poder probar. Aunque no se acerca a la potencia del anterior me sirve para descartar fallos, así que la compra no ha sido en vano.

He vuelto a reinstalar todo el entorno gráfico y lleva casi dos días funcionando ininterrumpidamente con el amule y boinc sin dar un solo fallo. Como he comentado anteriormente entre ambos hacen un uso intensivo de memoria y cpu.

Conclusión final:

      • Era de la CPU, pero me despistaba que solo diera fallos aplicaciones bajo entorno gráfico. Supongo que el resto de los procesos y servicios que corrían en la máquina no eran tan exigentes en uso de CPU y por eso no llegaba a fallar.

      • El DIMM fastidiado que tampoco creo que ayudara.

      • Una semana en encontrar el error.

      • 120€ entre CPU y memoria.

      • Una turbina que hace un ruido salido del infierno."

No hay comentarios: