FAQ
Hola lista:
Quiero desarrollar un buscador para una aplicación de Intranet que debe buscar en un contenido de 3.9 Gb y creciendo cada día más. El mismo debe bucar dentro de un carpeta y que dentro de esa hay miles de carpetas y dentro miles de archivos.

Encontre uno en Internet y me busca perfectamente pero en contenidos pequeños. Ahora cuando lo tiro contra 45935 archivos y 2226 carpetas entonces vienen los problemas pues al ver el proceso del apache este se monta en 200 y pico de uso de memoria y a gozar hay que reiniciarlo pues se curda el server completo.

Alguna idea o ayuda?
Salu2
--
ReynierPM
4to. Ing. Informática
Linux User: #310201
El programador superhéroe aprende de compartir sus conocimientos. Es el referente de sus compañeros. Todo el mundo va a preguntarle y él, secretamente, lo fomenta porque es así como adquiere su legendaria sabiduría: escuchando ayudando a los demás...

Search Discussions

  • Rafael at Mar 2, 2006 at 6:49 pm
    Pues... por lo que dices ya tienes un script que hace la búsqueda, pero
    éste consume demasiados recursos, así que podrías intentar reducir los
    recursos que consume.

    La primera idea que me viene a la mente es que el script podría estar
    guardando la lista de directorios / archivos en un arreglo. Ahora, si
    entiendo bien, readdir() requiere un resource-id como parámetro, por lo
    que si llamas readdir() después de otro, pero con un diferente parámetro
    (dado por opendir()) los resultados no se "cruzan", por lo que no sería
    necesario guardarlos en un arreglo, luego entonces creo que es seguro
    adaptarlo para que lea el directorio y enseguida use el valor obtenido
    en vez de guardarlo en ese arreglo-caché (a menos que readdir() repita
    resultados, pero no lo creo probable)

    Ahora, como dije antes, esto es lo primero que me viene a la menta,
    pero el principio sería el mismo: buscar la manera de ahorrar recursos.
    Si tienes problemas podrías incluir el código del script en un mensaje
    a la lista, tal vez alguien más de pueda ayudar con esa tarea.

    Reynier Perez Mira wrote:
    Hola lista: Quiero desarrollar un buscador para una aplicación de
    Intranet que debe buscar en un contenido de 3.9 Gb y creciendo cada
    día más. El mismo debe bucar dentro de un carpeta y que dentro de esa
    hay miles de carpetas y dentro miles de archivos.

    Encontre uno en Internet y me busca perfectamente pero en contenidos
    pequeños. Ahora cuando lo tiro contra 45935 archivos y 2226 carpetas
    entonces vienen los problemas pues al ver el proceso del apache este
    se monta en 200 y pico de uso de memoria y a gozar hay que
    reiniciarlo pues se curda el server completo.

    Alguna idea o ayuda? Salu2
    --
    Atentamente,
    J. Rafael Salazar Magaña
    Innox - Innovación Inteligente
    Tel: +52 (33) 3615 5348 ext. 205 / 01 800 2-SOFTWARE
    http://www.innox.com.mx
  • Claudio Corlatti at Mar 2, 2006 at 6:53 pm

    Reynier Perez Mira wrote:
    Quiero desarrollar un buscador para una aplicación de Intranet que debe buscar en un contenido de 3.9 Gb y creciendo cada día más. El mismo debe bucar dentro de un carpeta y que dentro de esa hay miles de carpetas y dentro miles de archivos.

    Encontre uno en Internet y me busca perfectamente pero en contenidos pequeños. Ahora cuando lo tiro contra 45935 archivos y 2226 carpetas entonces vienen los problemas pues al ver el proceso del apache este se monta en 200 y pico de uso de memoria y a gozar hay que reiniciarlo pues se curda el server completo.
    el buscador deberia buscar dentro del contenido de los archivos? o solo
    en el nombre del archivo?

    si es que busca en el nombre del archivo lo que haria seria lo siguiente,
    un php que lea todos los nombres y ubicacion y los guarde en una tabla
    en una base de datos
    y despues el buscador recorreria esa tabla buscando lo que necesita y
    devolveria la ubicacion del archivo.
    La tabla al usar indices va a ir mas rapido.

    Ahora si tiene que buscar dentro de el contenido del archivo,
    se me ocurre que podrias estructurar tipo
    Documentos
    _ informatica
    _ programacion
    _ hardware
    _ cocina
    y que solo busque en una carpeta especifica, o sea que el usuario
    seleccione una categoria y asi se acorte el abanico de posibilidades,
    con el consiguiente ahorro de recursos.

    Un saludo,
    Claudio
  • Eduardo Huertas at Mar 2, 2006 at 8:39 pm

    El jue, 02-03-2006 a las 10:11 -0500, Reynier Perez Mira escribió:
    Hola lista:
    Quiero desarrollar un buscador para una aplicación de Intranet que
    debe buscar en un contenido de 3.9 Gb y creciendo cada día más. El
    mismo debe bucar dentro de un carpeta y que dentro de esa hay miles de
    carpetas y dentro miles de archivos.

    Encontre uno en Internet y me busca perfectamente pero en contenidos
    pequeños. Ahora cuando lo tiro contra 45935 archivos y 2226 carpetas
    entonces vienen los problemas pues al ver el proceso del apache este
    se monta en 200 y pico de uso de memoria y a gozar hay que reiniciarlo
    pues se curda el server completo.

    Alguna idea o ayuda?
    Bueno, voy a lanzarte alguna idea genérica, más bien cercana a la
    ingeniería en cuanto al software más que sobre el script en php.

    Para empezar a desarrollar una aplicación de estas características creo
    que deberías pensar en dividirla, por una parte una aplicación que lea
    los contenidos de los directorios, con sus documentos, que los indexee y
    los meta en una base de datos.

    Esto debería correr como demonio independiente, y dejar una base de
    datos en condiciones de poder consultar desde php, así te evitas que
    haga un gran esfuerzo de búsqueda en un script, al final eso no te va a
    valer.

    Tambíen depende si sólo necesitas saber la estructura de los
    directorios, o si necesitas indexear contenido de documentos, de los
    tipos de documentos que vas a tener... en fín habría que concretar más
    ésto.

    Esto al fin y al cabo es a grandes rasgos como funciona un buscador de
    internet.

    Saludos.
  • Reynier Perez Mira at Mar 30, 2006 at 1:33 pm
    Nuevamente yo por acá con el lío del buscador. He estado leyendo todos los mensajes que me habeis dejado pero no logro hacer nada aun. Ahora mi amigo me dice que tiene que indexar alrededor de 7 Gb y que la cosa sigue creciendo (no se que locura sea esta pero asi somos los informáticos, ¿no?) El me dice que no importa el tamaño que ocupe la BD pero si le hace falta indexarlo todo, pues el buscardorcito que el me mando busca en archivos pero tambien en BD y lo hace rapido, la ultima vez que me escribio dijo tenia 2.90GB de informacion ahora me cuento que son 6 casi 7 y esto aumenta por dias, pero se me complica la existencia con tener que buscar articulo por articulo y hay infomacion por un tubo imagina que son exactamente 57293 archivos y esto pesa 6.04GB, balla salvajada no, pero esto me beneficia mucho.


    Espero por sus ideas, como siempre
    Salu2 ;)
    --
    ReynierPM
    4to. Ing. Informática
    Linux User: #310201
    El programador superhéroe aprende de compartir sus conocimientos. Es el referente de sus compañeros. Todo el mundo va a preguntarle y él, secretamente, lo fomenta porque es así como adquiere su legendaria sabiduría: escuchando ayudando a los demás...
  • Julio B. at Mar 30, 2006 at 1:50 pm
    La mejor opción es ésta:

    http://www.google.es/enterprise/mini/index.html

    Saludos,

    Julio Barroso

    ""Reynier Perez Mira"" <rperezm@estudiantes.uci.cu> escribió en el mensaje
    news:CD5D28C6C2E39441B4AC9027771E9AD201ADF574@ucixs56.uci.cu...
    Nuevamente yo por acá con el lío del buscador. He estado leyendo todos los
    mensajes que me habeis dejado pero no logro hacer nada aun. Ahora mi amigo
    me dice que tiene que indexar alrededor de 7 Gb y que la cosa sigue
    creciendo (no se que locura sea esta pero asi somos los informáticos, ¿no?)
    El me dice que no importa el tamaño que ocupe la BD pero si le hace falta
    indexarlo todo, pues el buscardorcito que el me mando busca en archivos pero
    tambien en BD y lo hace rapido, la ultima vez que me escribio dijo tenia
    2.90GB de informacion ahora me cuento que son 6 casi 7 y esto aumenta por
    dias, pero se me complica la existencia con tener que buscar articulo por
    articulo y hay infomacion por un tubo imagina que son exactamente 57293
    archivos y esto pesa 6.04GB, balla salvajada no, pero esto me beneficia
    mucho.


    Espero por sus ideas, como siempre
    Salu2 ;)
    --
    ReynierPM
    4to. Ing. Informática
    Linux User: #310201
    El programador superhéroe aprende de compartir sus conocimientos. Es el
    referente de sus compañeros. Todo el mundo va a preguntarle y él,
    secretamente, lo fomenta porque es así como adquiere su legendaria
    sabiduría: escuchando ayudando a los demás...
  • Reynier Perez Mira at Mar 30, 2006 at 1:57 pm
    Hola Julio:
    "este dispositivo de búsqueda formado por hardware y software ofrece la potencia y la productividad del motor de búsqueda de Google en todos los documentos y páginas web de una empresa."
    Según tengo entendido empresas como Google no comercian con Cuba por lio de politica (tema que no viene al caso, por favor no me toquen este punto) y no creo que vengan a instalar nada a Cuba y menos por el precio de 1.995 € ademas de que no nos podemos dar el lujo de pagar ese dinero. Es por ello que pido ayuda y soluciones al respecto. De todas formas muchas gracias por tu ayuda, la tendremos en cuenta algun dia cuando las empresas de software puedan comerciar libremente con Cuba.

    Salu2
    --
    ReynierPM
    4to. Ing. Informática
    Linux User: #310201
    El programador superhéroe aprende de compartir sus conocimientos. Es el referente de sus compañeros. Todo el mundo va a preguntarle y él, secretamente, lo fomenta porque es así como adquiere su legendaria sabiduría: escuchando ayudando a los demás...
    -----Mensaje original-----
    De: Julio B.
    Enviado el: Thursday, March 30, 2006 8:43 AM
    Para: php-es@lists.php.net
    Asunto: Re: [PHP-ES] Ayuda con buscador

    La mejor opción es ésta:

    http://www.google.es/enterprise/mini/index.html

    Saludos,

    Julio Barroso

    ""Reynier Perez Mira"" <rperezm@estudiantes.uci.cu> escribió
    en el mensaje
    news:CD5D28C6C2E39441B4AC9027771E9AD201ADF574@ucixs56.uci.cu...
    Nuevamente yo por acá con el lío del buscador. He estado
    leyendo todos los mensajes que me habeis dejado pero no logro
    hacer nada aun. Ahora mi amigo me dice que tiene que indexar
    alrededor de 7 Gb y que la cosa sigue creciendo (no se que
    locura sea esta pero asi somos los informáticos, ¿no?) El me
    dice que no importa el tamaño que ocupe la BD pero si le hace
    falta indexarlo todo, pues el buscardorcito que el me mando
    busca en archivos pero tambien en BD y lo hace rapido, la
    ultima vez que me escribio dijo tenia 2.90GB de informacion
    ahora me cuento que son 6 casi 7 y esto aumenta por dias,
    pero se me complica la existencia con tener que buscar
    articulo por articulo y hay infomacion por un tubo imagina
    que son exactamente 57293 archivos y esto pesa 6.04GB, balla
    salvajada no, pero esto me beneficia mucho.


    Espero por sus ideas, como siempre
    Salu2 ;)
    --
    ReynierPM
    4to. Ing. Informática
    Linux User: #310201
    El programador superhéroe aprende de compartir sus
    conocimientos. Es el referente de sus compañeros. Todo el
    mundo va a preguntarle y él, secretamente, lo fomenta porque
    es así como adquiere su legendaria
    sabiduría: escuchando ayudando a los demás...

    --
    PHP Spanish Localization Talk Mailing List (http://www.php.net/)
    To unsubscribe, visit: http://www.php.net/unsub.php
  • MarioDebian at Mar 30, 2006 at 10:00 pm

    On 3/30/06, Reynier Perez Mira wrote:
    Hola Julio:
    "este dispositivo de búsqueda formado por hardware y software ofrece la potencia y la productividad del motor de búsqueda de Google en todos los documentos y páginas web de una empresa."
    Según tengo entendido empresas como Google no comercian con Cuba por lio de politica (tema que no viene al caso, por favor no me toquen este punto) y no creo que vengan a instalar nada a Cuba y menos por el precio de 1.995 € ademas de que no nos podemos dar el lujo de pagar ese dinero. Es por ello que pido ayuda y soluciones al respecto. De todas formas muchas gracias por tu ayuda, la tendremos en cuenta algun dia cuando las empresas de software puedan comerciar libremente con Cuba.

    Salu2
    Conoces beagle ???

    Es un demonio buscador que indexa casi cualquier documento (doc, xls,
    txt, musica, fotos....)

    http://beaglewiki.org/Main_Page

    El demonio no necesita interfaz gráfico y tiene librerías para poder
    hacer búsquedas port web ( .NET ).

    Es libre y está desarrollado en mono. (Linux only)

    Saludos

Related Discussions

Discussion Navigation
viewthread | post
Discussion Overview
groupphp-general-es @
categoriesphp
postedMar 2, '06 at 2:10p
activeMar 30, '06 at 10:00p
posts8
users6
websitephp.net

People

Translate

site design / logo © 2022 Grokbase