Posts Tagged buscaplus

How To Compete With Google With Low Economic Resources

Content from a search engine is very important to have a quality search service for users. A few months ago, I started to think that unless I had the chance to have funding, I would not be able to compete with the big guys due to lack of infrastructure, etc… The funding failed but seems it is not that critical at all.

Current Data

My startup is a new search engine. I have now like 6 million web pages in spanish. Content is very low with respect to Google and Bing, to name a few. But on testing I did, I have average 50% of the content Google has on first page for popular queries. I assume this is not that bad considering that so far I have no modules to get only authoring or popular content.

Fetching Popular Content Module

I am testing a module that creates a database of all the links outbound from those 6 million web pages (which are reasonable relevant). The db is building now, in a few days will have the results. I assume I would be getting like 10 million links. After that point, B+ will only index content from these web pages, leading to a higher percentage content. Anything above 70% will be good, and figures like 90% would be great. This improve will lead to better search results for users.

Why First-Page Google Is Important?

I am not focusing on giving results on first-page from google, but this factor is important to tell how much relevant content B+ has in spanish. The personalization technology and preferences feeded into B+ will allow nice search quality for communities and groups of people. So first page analysis gives me a pretty good estimate that I have most quality content and lack of funding is not ruining the evolution of this search project.

Soon will publish on the blog results

Post to Twitter Tweet This Post Post to Plurk Plurk This Post Post to Digg Digg This Post Post to Ping.fm Ping This Post

,

View Comments

Beta pública de Buscaplus

buscaplus_logo

El Viernes se inició la actividad de la Beta pública de Buscaplus. Es un proyecto que me ha llevado mucho tiempo y quebraderos de cabeza. Por tanto es un momento bastante agradable ver que por fin se ha podido terminar. Creo que el proyecto empresarial saldrá adelante aún en estos tiempos de crisis principalmente porque Buscaplus ha ido avanzando en un entorno muy hostil y ya estamos acostumbrados a ello. Durante los últimos años realmente como Buscaplus no era la red social de turno o el proyecto de laboratorio creado para que el inversor de turno ponga dinero, ha sido sacar esto muy a pulso. Ademas, pues que cuando uno hace algo teniendo como competidores a Google, Yahoo y Microsoft pues en España le tachan a uno de “tener alucinaciones”. Incluso las personas que yo pueda etiquetar de visionarias son ciertamente negativas a este tipo de iniciativas.

Por tanto, contento de tener algo ya en el mercado. Pero consciente de que los clientes habrá de sacarlos con sacacorchos, que habrá que lucharlo mucho contrato a contrato, luchando para convencer del modelo, etc… Es como intentar subir por las cataratas del niagara contra corriente. Pero como yo no soy uno de esos emprendedores que sólo se meten en un proyecto empresa cuando hay “un nicho” o “no hay nadie que haga lo mismo”, pues se saldrá adelante porque es innovador y puede llegar a ser un servicio de búsqueda que cambie ciertas cosas en la industria mundial.

¿Que es Buscaplus?

Buscaplus es un sistema que permite crear buscadores de Internet de forma económica. Cuenta con una tecnología “patent-pending” en EE.UU por la cual tiene una parte común entre los buscadores (ahorro de costes) y otra parte que se puede configurar y personalizar. Antes de Buscaplus si uno tiene un web de viajes y quiere ofrecer búsquedas de temas de viajes pues se enlazaba a Google. Lo que ofrece Buscaplus es que esa empresa puede ella misma configurar su propio buscador de viajes, definiendo los dominios más importantes, la autoridad de enlaces más optima, etc… para tener un servicio de búsqueda mejor y sobretodo poder controlar dichos resultados. Además esas empresas pueden controlar la licencia de su buscador, pudiendo obtener una rentabilidad cuando otras empresas quieran usar su servicio de búsqueda de viajes.

Quedan muchos obstáculos en el camino pero muchos menos que hace cierto tiempo. Yo comparo lo que será el crecimiento de B+ con la dinámica de Firefox. Al principio nadie pensaba que esa tecnología tuviera éxito, pero poco a poco fue cogiendo fuerza. Algo similar irá ocurriendo con B+.

Aunque consciente de que competir con estas grandes empresas es complicado y dificil. Ellos tienen miles de millones de dólares de presupuesto y en Buscaplus contamos siempre con rescursos escasos. Aunque también es cierto que la oferta de Buscaplus no es exactamente la misma que la de los 3 grandes, siendo un concepto diferente.

Post to Twitter Tweet This Post Post to Plurk Plurk This Post Post to Digg Digg This Post Post to Ping.fm Ping This Post

View Comments

Optimizaciones para obtener los contextos

La aplicación de Buscaplus que va a salir en unos días utiliza django. Organizamos todo el texto de las páginas web en contextos desde ficheros XML.

Estos contextos nos permiten obtener datos de:

  • Mensajes y textos comunes a todos los casos de uso
  • Mensajes y textos de un caso de uso determinado
  • Mensajes y textos de contextos asociados a un caso de uso
  • Textos de las combos, tablas de referencia (id->literal), etc…

Utilizamos tablas BerkeleyDB no relacional que para actividades id->valor es muy eficiente, además de que permite tener parte de la información en memoria y el resto en disco, o tenerla toda en memoria. En este caso debido a que todas estas tablas de referencia de contextos no ocupará mucho, estará todo en memoria. Lo que se ha utlizado se ha visto que ocupa muchas lineas de código y puede tener varias llamadas al servidor dbmd (BerkeleyDB):

?View Code PYTHON
	XmlContentList = util.content.getXmlList('xml_content', 'main.db', ['Index/' + sLang, 'Profile/' + sLang, 'Messages/' + sLang])
	BaseXml = util.xml_lib.PageXML()
	BaseXml.parse(XmlContentList[0])
	BaseContextDict = BaseXml.getContainerDict('DICT_BASE_CONTEXT')
	ContentXml = util.xml_lib.PageXML()
	ContentXml.parse(XmlContentList[1])
	TextDict = ContentXml.getContainerDict('DICT_TEXT')
	MessagesXml = util.xml_lib.PageXML()
	MessagesXml.parse(XmlContentList[2])
	MessagesDict = MessagesXml.getContainerDict('DICT_MESSAGES')
	xmlTables = util.content.getXml('xml_web', 'tables.db', 'Main/' + sLang)
	TableXml = util.xml_lib.PageXML()
	TableXml.parse(xmlTables)
	CountryDict = TableXml.getContainerDict('DICT_COUNTRY')

Read the rest of this entry »

Post to Twitter Tweet This Post Post to Plurk Plurk This Post Post to Digg Digg This Post Post to Ping.fm Ping This Post

, , ,

View Comments