FAQ
Hola a todos:
Mi pregunta es la siguiente. Tengo un buscador, que tiene que buscar aparte de
en el nombre del fichero, dentro del mismo. Con los .txt, no hay problema pero
con los .doc, me saca todos los simbolos del archivo y entonces la busqueda me
la hace mal. Este es mi codigo:

if ($fp = fopen($archivo, "rb")) {
$enarchivo=addslashes(fread($fp, filesize($archivo)));
fclose($fp);
}
$enarchivo=stripslashes($enarchivo); //esto no se si hace algo pero....
y luego realizo la busqueda sobre $enarchivo.

Alguien me puede decir como quito todos los simbolos para que solo me saque el
texto?

Gracias de antemano, y un saludo.


--
Get your firstname@lastname email for FREE at http://Nameplanet.com/?su

Search Discussions

  • Àngel Fenoy at Jun 8, 2001 at 7:49 pm

    Divendres 08 Juny 2001 16:44, nica@vicente.as dixit:

    Hola a todos:
    Mi pregunta es la siguiente. Tengo un buscador, que tiene que buscar aparte
    de en el nombre del fichero, dentro del mismo. Con los .txt, no hay
    problema pero con los .doc, me saca todos los simbolos del archivo y
    entonces la busqueda me la hace mal. Este es mi codigo:

    if ($fp = fopen($archivo, "rb")) {
    $enarchivo=addslashes(fread($fp, filesize($archivo)));
    fclose($fp);
    }
    $enarchivo=stripslashes($enarchivo); //esto no se si hace algo pero....
    y luego realizo la busqueda sobre $enarchivo.

    Alguien me puede decir como quito todos los simbolos para que solo me saque
    el texto?

    Gracias de antemano, y un saludo.
    El formato de los ficheros .doc de microsoft es *extremadamente* ofuscado,
    además, acostumbran a cambiar el formato de una versión a otra de office, por
    locual te recominedo que no intentes leerlo directamente, búscate alguna
    utilidad que pueda hacer una copia en texto puro y manipula esa copia. Hay
    bastantes programas que hacen ese tipo de conversión, en linux reduerdo uno
    llamado antiword:

    http://www.winfield.demon.nl/

    Saludos
    Àngel
  • José Esteban at Jun 11, 2001 at 12:41 pm
    Hola.

    También está catdoc, que imagino vendrá con cualquier distribución de
    linux.

    Saludos.

    El vie, 06/08/01 jun 01, a las 09:56, Àngel Fenoy decía:
    Divendres 08 Juny 2001 16:44, nica@vicente.as dixit:
    Hola a todos:
    Mi pregunta es la siguiente. Tengo un buscador, que tiene que buscar aparte
    de en el nombre del fichero, dentro del mismo. Con los .txt, no hay
    problema pero con los .doc, me saca todos los simbolos del archivo y
    entonces la busqueda me la hace mal. Este es mi codigo:

    if ($fp = fopen($archivo, "rb")) {
    $enarchivo=addslashes(fread($fp, filesize($archivo)));
    fclose($fp);
    }
    $enarchivo=stripslashes($enarchivo); //esto no se si hace algo pero....
    y luego realizo la busqueda sobre $enarchivo.

    Alguien me puede decir como quito todos los simbolos para que solo me saque
    el texto?

    Gracias de antemano, y un saludo.
    El formato de los ficheros .doc de microsoft es *extremadamente* ofuscado,
    además, acostumbran a cambiar el formato de una versión a otra de office, por
    locual te recominedo que no intentes leerlo directamente, búscate alguna
    utilidad que pueda hacer una copia en texto puro y manipula esa copia. Hay
    bastantes programas que hacen ese tipo de conversión, en linux reduerdo uno
    llamado antiword:

    http://www.winfield.demon.nl/

    Saludos
    Àngel

    ---------------------------------------------------------------------
    Archivo On-line: http://www.phpes.com/
    Manual PHP en español: http://www.php.net/manual/es/
    Para dar de baja la suscripción, mande un mensaje a:
    lista-unsubscribe@phpes.com
    --
    José Esteban
    Granada - Spain
    #ICQ: 106853547
  • Tomas V.V.Cox at Jun 11, 2001 at 4:14 pm

    José Esteban wrote:

    Hola.

    También está catdoc, que imagino vendrá con cualquier distribución de
    linux.
    Bueno el comando este catdoc no lo había oido nunca y al menos en mi Red
    Hat no viene, pero el que si que viene seguro en todas las distribs es
    el comando "strings", que básicamente lo que hace es extraer todas las
    cadenas de texto que encuentre en un fichero binario.

    Saludos,

    Tomas V.V.Cox
    El vie, 06/08/01 jun 01, a las 09:56, Àngel Fenoy decía:
    Divendres 08 Juny 2001 16:44, nica@vicente.as dixit:
    Hola a todos:
    Mi pregunta es la siguiente. Tengo un buscador, que tiene que buscar aparte
    de en el nombre del fichero, dentro del mismo. Con los .txt, no hay
    problema pero con los .doc, me saca todos los simbolos del archivo y
    entonces la busqueda me la hace mal. Este es mi codigo:
  • José Esteban at Jun 11, 2001 at 5:42 pm
    Hola.

    El lun, 06/11/01 jun 01, a las 06:15, Tomas V.V.Cox decía:
    José Esteban wrote:
    Hola.

    También está catdoc, que imagino vendrá con cualquier distribución de
    linux.
    Bueno el comando este catdoc no lo había oido nunca y al menos en mi Red
    Hat no viene, pero el que si que viene seguro en todas las distribs es
    el comando "strings", que básicamente lo que hace es extraer todas las
    cadenas de texto que encuentre en un fichero binario.
    No sé mucho del formato .doc (la única forma de saber es ingeniería
    inversa), pero probablemente 'strings' te extraiga algo más que texto
    que escribió el autor.

    Imagino que no debería ser difícil localizar algún rpm de catdoc. ¡Ah! y
    veo en el README que puede utilizarse tb. en 'MS-DOS'.

    Saludos.

    --
    José Esteban
    Granada - Spain
    #ICQ: 106853547
  • Tomas V.V.Cox at Jun 11, 2001 at 7:51 pm

    José Esteban wrote:

    Hola.

    El lun, 06/11/01 jun 01, a las 06:15, Tomas V.V.Cox decía:
    José Esteban wrote:
    Hola.

    También está catdoc, que imagino vendrá con cualquier distribución de
    linux.
    Bueno el comando este catdoc no lo había oido nunca y al menos en mi Red
    Hat no viene, pero el que si que viene seguro en todas las distribs es
    el comando "strings", que básicamente lo que hace es extraer todas las
    cadenas de texto que encuentre en un fichero binario.
    No sé mucho del formato .doc (la única forma de saber es ingeniería
    inversa),
    Nop, según tengo entendido es un formato con especificaciones abiertas.
    Es más lo hacen así para que la gente pueda programar filtros de/a Word
    y así de paso difundir este pesado formato por todos lados. Tienes más
    info sobre conversores para Unix y como conseguir las specs de los
    formatos de Office en:

    http://www.mlib.unibel.by/pub/pub/qqq/office/MSWordView.html
    pero probablemente 'strings' te extraiga algo más que texto
    que escribió el autor.
    Si, está claro.. strings es una ultilidad de uso general.


    Tomas V.V.Cox

Related Discussions

Discussion Navigation
viewthread | post
Discussion Overview
groupphp-general-es @
categoriesphp
postedJun 8, '01 at 2:42p
activeJun 11, '01 at 7:51p
posts6
users4
websitephp.net

People

Translate

site design / logo © 2022 Grokbase