1
Subdominios y páginas personales
� Yahoo Search
� Comando feature:
� feature:index
� feature:homepage (sitios con ~)
� feature:homepage feature:index
� Errores
� Respuestas no subdominios
� Respuestas duplicadas
� GoogSpy
� Términos en dominios/subdominios
4
Ficheros ricos y ficheros media
� Ficheros ricos� Definición y tipos
� Adobe Acrobat (pdf) y Postscript (ps)� MS Office: Word (doc, rtf), Excel (xls), Powerpoint (ppt)
� Tamaño: Google y Yahoo� Delimitadores: filetype (Google); originurlextension (Yahoo)
� Ficheros media� Definición y tipos
� FilExt www.filext.com� Localización en motores
� Términos� Delimitadores� Bases de datos autónomas
6
Google (filetype)
Tipos 11-nov-01 24-may-02 01-oct-02 29-mar-04 Tipos 11-nov-01 24-may-02 01-oct-02 29-mar-04
html, htm 63.600.000 98.800.000 120.700.000 240.000.000 ps 523.000 635.000 665.000 2.020.000
asp, aspx, dsp, jsp 12.120.000 23.900.000 31.156.700 78.260.100 xls 297.000 443.000 506.000 1.420.000
php, php3, php4 8.524.000 17.964.000 24.602.000 70.470.000 exe 287.000 393.000 693.000 1.360.000
pdf 3.990.000 6.310.000 7.410.000 22.000.000 ppt 257.000 419.000 442.000 1.170.000
cgi 4.350.000 7.500.000 8.060.000 19.200.000 stm 290.000 479.000 440.000 1.130.000
shtm, shtml 4.328.000 7.419.000 8.502.000 17.221.000 rtf 225.000 336.000 341.000 856.000
cfm 2.950.000 5.340.000 6.730.000 15.500.000 lasso 101.000 474.000
py 662.000 396.000
gsp 214.000 154.000 307.000
phtml, phtm 2.180.400 6.159.900 bmp, gif, jpg, png 9.070 19.610 163.000 187.270
fcgi 103.000 6.000.000 htx 124.000 156.000
doc 1.160.000 1.820.000 2.140.000 5.750.000 dwg 102.000 144.000
txt, text, csv 1.650.000 2.700.000 3.067.200 5.511.000 wml 133.000 139.000
swf 2.520.000 5.200.000 rdf 83.200 175.000 125.000 106.000
jhtml, jhtm 247.026 493.650 1.085.500 3.412.400 zip, gz, bz2 862 819 162.800 103.150
xml, xhtml, xsl, dtd 282.400 644.600 742.300 2.022.100 class, jar 319.500 56.000
Google: Composición y evolución de tipos de ficheros
c, cc, cpp, cxx,
inc, java, pas, pl,
sh, tcl, bat1.480.000 2.380.000 4.765.600 11.723.300
10
Idiomas en la red
� Fuentes y estudios� Usuarios según idioma
� Global Reach global-reach.biz/globstats/index.php3� Composición del webespacio
� Experimentos con buscadores� Google� Yahoo!� MSN Search� Ask� Copernic
13
Idiomas (Google)
Language
<lr> value
Language
Idioma Código Idioma Código
Arabic lang_ar Icelandic lang_is
Chinese (S) lang_zh-CN Italian lang_it
Chinese (T) lang_zh-TW Japanese lang_ja
Czech lang_cs Korean lang_ko
Danish lang_da Latvian lang_lv
Dutch lang_nl Lithuanian lang_lt
English lang_en Norwegian lang_no
Estonian lang_et Portuguese lang_pt
Finnish lang_fi Polish lang_pl
French lang_fr Romanian lang_ro
German lang_de Russian lang_ru
Greek lang_el Spanish lang_es
Hebrew lang_iw Swedish lang_sv
Hungarian lang_hu Turkish lang_tr
15
Países (Google)
Language
Language
Andorra AD Bhutan BT Estonia EE Guinea-Bissau GW Kazakhstan KZ
United Arab Emirates AE Bouvet Island BV Egypt EG Guyana GY Lao PDR LA
Afghanistan AF Botswana BW Western Sahara EH Hong Kong HK Lebanon LB
Antigua and Barbuda AG Belarus BY Eritrea ER Heard and Mc Donald Islands HM Saint Lucia LC
Anguilla AI Belize BZ Spain ES Honduras HN Liechtenstein LI
Albania AL Canada CA Ethiopia ET Croatia (Hrvatska) HR Sri Lanka LK
Armenia AM Cocos (Keeling) Islands CC European Union EU Haiti HT Liberia LR
Netherlands Antilles AN Congo, DR CD Finland FI Hungary HU Lesotho LS
Angola AO Central African Republic CF Fiji FJ Indonesia ID Lithuania LT
Antarctica AQ Congo CG Falkland Islands (Malvinas) FK Ireland IE Luxembourg LU
Argentina AR Switzerland CH Micronesia, FS FM Israel IL Latvia LV
American Samoa AS Cote D'ivoire CI Faroe Islands FO India IN Libya LY
Austria AT Cook Islands CK France FR British Indian Ocean Terr. IO Morocco MA
Australia AU Chile CL France, Metropolitan FX Iraq IQ Monaco MC
Aruba AW Cameroon CM Gabon GA Iran IR Moldova MD
Azerbaijan AZ China CN United Kingdom UK Iceland IS Madagascar MG
Bosnia and Herzegowina BA Colombia CO Grenada GD Italy IT Marshall Islands MH
Barbados BB Costa Rica CR Georgia GE Jamaica JM Macedonia, FYR MK
Bangladesh BD Cuba CU French Quiana GF Jordan JO Mali ML
Belgium BE Cape Verde CV Ghana GH Japan JP Myanmar MM
Burkina Faso BF Christmas Island CX Gibraltar GI Kenya KE Mongolia MN
Bulgaria BG Cyprus CY Greenland GL Kyrgyzstan KG Macau MO
Bahrain BH Czech Republic CZ Gambia GM Cambodia KH Northern Mariana Islands MP
Burundi BI Germany DE Guinea GN Kiribati KI Martinique MQ
Benin BJ Djibouti DJ Guadeloupe GP Comoros KM Mauritania MR
Bermuda BM Denmark DK Equatorial Guinea GQ Saint Kitts and Nevis KN Montserrat MS
Brunei Darussalam BN Dominica DM Greece GR Korea, DPR KP Malta MT
Bolivia BO Dominican Republic DO South Georgia/South Sandwich I. GS Korea, Republic of KR Mauritius MU
Brazil BR Algeria DZ Guatemala GT Kuwait KW Maldives MV
Bahamas BS Ecuador EC Guam GU Cayman Islands KY Malawi MW
16
Países II (Google)
Language
Language
Mexico MX Qatar QA Tokelau TK
Malaysia MY Reunion RE Turkmenistan TM
Mozambique MZ Romania RO Tunisia TN
Namibia NA Russian Federation RU Tonga TO
New Caledonia NC Rwanda RW East Timor TP
Niger NE Saudi Arabia SA Turkey TR
Norfolk Island NF Solomon Islands SB Trinidad and Tobago TT
Nigeria NG Seychelles SC Tuvalu TV
Nicaragua NI Sudan SD Taiwan TW
Netherlands NL Sweden SE Tanzania TZ
Norway NO Singapore SG Ukraine UA
Nepal NP St. Helena SH Uganda UG
Nauru NR Slovenia SI United States Minor Outlying I. UM
Niue NU Svalbard and Jan Mayen Is. SJ United States US
New Zealand NZ Slovakia (Slovak Republic) SK Uruguay UY
Oman OM Sierra Leone SL Uzbekistan UZ
Panama PA San Marino SM Holy See (Vatican City State) VA
Peru PE Senegal SN Saint Vincent and the Grenadines VC
French Polynesia PF Somalia SO Venezuela VE
Papua New Guinea PG Suriname SR Virgin Islands (British) VG
Philippines PH Sao Tome and Principe ST Virgin Islands (U.S.) VI
Pakistan PK El Salvador SV Vietnam VN
Poland PL Syria SY Vanuatu VU
St. Pierre and Miquelon PM Swaziland SZ Wallis and Futuna Islands WF
Pitcairn PN Turks and Caicos Islands TC Samoa WS
Puerto Rico PR Chad TD Yemen YE
Palestine PS French Southern Territories TF Mayotte YT
Portugal PT Togo TG Yugoslavia YU
Palau PW Thailand TH South Africa ZA
Paraguay PY Tajikistan TJ Zambia ZM
17
Listados de universidades
Language
Language
Braintrack www.braintrack.com
Universities Worldwide univ.cc
Galilei www.galilei.com.ar
HEIR siu.no/heir
General Education Online www.findaschool.org
International Colleges and Universities www.4icu.org
Portal Tecnociencia www.tecnociencia.es
Universia www.universia.es
Canadian Universities www.uwaterloo.ca/canu
U.S. Universities by State www.utexas.edu/world/univ/state
Top American Reseach Universities thecenter.ufl.edu
UK Higher Education Map www.scit.wlv.ac.uk/ukinfo/uk.map.html
Times World Universities Rankings www.thes.co.uk/worldrankings
German University Ranking www.university-ranking.org
Academic Ranking of World Universities ed.sjtu.edu.cn/ranking.htm
All Universities around the World www.bulter.nl/universities
Ranking of China Universities rank2005.netbig.com
Alphabetical Index of Japanese Universities camp.ff.tku.ac.jp/TOOL-BOX/JapanUNIV
18
Internet invisible
� Características� Tamaño y Calidad� Fuentes
� Complete Planet www.completeplanet.com� Internet Invisible www.internetinvisible.com
� Descripción� Identificación
� Institución� País/Idioma� Temática
� Cuantitativa� Tamaño� Visibilidad
� Cualitativa� Estructura� Cobertura� Actualización� Recuperación
19
Agentes personales (I)
� VolcadoresAaronWebVacuum 2.5 www.surfwarelabs.comJOC WebSpider 3.72 www.jocsoft.comTeleportTeleportTeleportTeleport Pro 1.41Pro 1.41Pro 1.41Pro 1.41 www.tenmax.comLeech 4.3 www.aeria.comWebCopier 4.2 www.maximumsoft.comBlackWidow 4.4 www.softbytelabs.comMemoWeb 4.0 www.goto.frOffline Commander 2.1 www.zylox.comWebReaper 9.8 www.webreaper.netOffline Explorer Pro 3.9 www.metaproducts.comPowerSiphon 1.9 www.powersiphon.comWebsite Extractor 9.08 www.asona.orgWebWhacker 2000 5.0 www.bluesquirrel.comWebZip 7.0 www.spidersoft.com
20
Agentes personales (II)
� Inspectores de enlacesAlert LinkRunner 6.0 www.alertbookmarks.com/lrHTML Link Validator 4.4 www.lithopssoft.comHTML Validator Professional 7.0 www.htmlvalidator.comLink Checker Pro 3.3 www.kyosoft.comLinkScan Workstation 11.5 www.elsop.comWeb Link Validator 4.0 www.relsoftware.com/wlvXenu'sXenu'sXenu'sXenu's Link Link Link Link SleuthSleuthSleuthSleuth 1.21.21.21.2 home.snafu.de/tilman/xenulink.html
21
Agentes personales (III)
� Extractores HTML� WebData Extractor 4.3 www.webextractor.com
� Experimentos� Volcado de sede con el volcador Teleport Pro� Mapeado de la sede volcada con Xenu
� Inspección de links� Mapeado directo de la sede con Xenu
� Inspección de links� Tamaño de la sede según los motores de búsqueda
� Google, Yahoo, Teoma, Gigablast
24
Cibermetria de motores de búsqueda
� Motores de búsqueda: Características y problemática� 7 grandes motores “distintos”
� Google� Yahoo Search� MSN Search (A9 “candidato”)� Ask (ex-Teoma)� Exalead (futuro Quaero)� Wisenut� Gigablast
� Estudios sobre motoresSearch Engine Showdown searchengineshowdown.com
Search Engine Watch searchenginewatch.com
25
¿Sólo siete (+uno)?
Sede Base de datos Sede Base de datos Sede Base de datos
GOOGLE GOOGLE GOOGLE
NETSCAPE NETSCAPE NETSCAPE
YAHOO YAHOO YAHOO
ALTAVISTA ALTAVISTA ALTAVISTA ALTAVISTA
ALLTHEWEB ALLTHEWEB ALLTHEWEB
LYCOS LYCOS TEOMA LYCOS
IWON GOOGLE IWON GOOGLE IWON
HOTBOT HOTBOT
MSN SEARCH MSN SEARCHMSN SEARCH LIVE LIVE
TEOMA TEOMA
ASK JEEVES ASK JEEVES
ALEXA GOOGLE ALEXA ALEXA ALEXA
A9 A9 LIVE
EXALEAD EXALEAD EXALEAD EXALEAD
WISENUT WISENUT WISENUT WISENUT WISENUT WISENUT
GIGABLASTHEREUARE
GOOGLE/MSN SEARCH
2003 2004-2005 2006-2007
GIGABLAST GIGABLASTGIGABLAST GIGABLAST GIGABLAST
GOOGLEGOOGLE
ASK
YAHOO
TEOMA ASK ASK
YAHOO
FAST
INKTOMI
TEOMA
27
Delimitadores (I)
AGO'05 AGO'06
GOOGLE site:es 11.500.000 138.000.000
MSN SEARCH site:es 18.137.099 16.710.809
YAHOO SEARCH site:es 117.000.000 70.400.000
ASKsite:es
+inurl:es49.130.000 32.150.000
EXALEAD site:es 3.160.589 10.823.751
GIGABLAST site:es 1.288.876
DOMINIOMOTORES DE
BUSQUEDA
AGO'05 AGO'06 AGO'05 AGO'06
GOOGLE site:csic.es 346.000 3.320.000 site:www.cindoc.csic.es 4.590 21.700
MSN SEARCH site:csic.es 117.099 153.363 site:www.cindoc.csic.es 2.647 2.174
YAHOO SEARCH site:csic.es 199.000 272.000 site:www.cindoc.csic.es 2.430 3.930
ASKsite:csic.es
+inurl:csic.es256.100 129.500
site:www.cindoc.csic.es
+inurl:www.cindoc.csic.es3.270 3.520
EXALEAD site:csic.es 19.978 46.150 site:www.cindoc.csic.es 901 1.243
GIGABLAST site:csic.es 15.916 13.764 site:www.cindoc.csic.es 500 455
SUBDOMINIO / SITIOMOTORES DE
BUSQUEDA
31
Delimitadores (II)
AGO'05 AGO'06
GOOGLE inurl:cybermetrics 702 14.700
MSN SEARCH inurl:cybermetrics 0 0
YAHOO SEARCH inurl:cybermetrics 1.920 3.620
ASK inurl:cybermetrics 2.050 1.250
EXALEAD inurl:cybermetrics 977GIGABLAST suburl:cybermetrics 536 496
PALABRA EN URLMOTORES DE
BUSQUEDA
AGO'05 AGO'06 AGO'05 AGO'06
GOOGLE site:www.csic.es/cbic 8.050 29.700 site:www.cindoc.csic.es/cybermetrics 249 9.540
MSN SEARCH site:www.csic.es/cbic 1.926 2.228 site:www.cindoc.csic.es/cybermetrics 643 342
ASK inurl:www.csic.es/cbic 3.650 2.290 inurl:www.cindoc.csic.es/cybermetrics 1.890 2.290
EXALEAD site:www.csic.es/cbic 619 914 site:www.cindoc.csic.es/cybermetrics 217 183
MOTORES DE
BUSQUEDA
SUBDIRECTORIO
32
Delimitadores (III)AGO'05 AGO'06
MSN SEARCH linkdomain:csic.es 205.127 229.310
YAHOO SEARCH linkdomain:csic.es 152.000 245.000EXALEAD link:csic.es 26.637 24.941
AGO'05 AGO'06
MSN SEARCH linkdomain:cindoc.csic.es 36.608 45.184
YAHOO SEARCH linkdomain:cindoc.csic.es 19.000 26.400EXALEAD link:cindoc.csic.es 2.133 2.785
AGO'05 AGO'06
MSN SEARCH linkdomain:www.cindoc.csic.es 9.460 9.840
YAHOO SEARCH linkdomain:www.cindoc.csic.es 12.700 15.300EXALEAD link:www.cindoc.csic.es 1.448 2.016
MOTORES DE
BUSQUEDA
ENLACE A DOMINIO / SITIO
33
Delimitadores (IV)
AGO'05 AGO'06 AGO'05 AGO'06
GOOGLE link:www.csic.es/cbic 7 639 link:www.csic.es/cbic/cbic.htm 288 639
MSN SEARCH link:www.csic.es/cbic 15 16 link:www.csic.es/cbic/cbic.htm 3.015 2.666
YAHOO SEARCH link:http://www.csic.es/cbic 44 69 link:http://www.csic.es/cbic/cbic.htm 11500 3130
EXALEAD link:www.csic.es/cbic/cbic.htm 553 783
GIGABLAST link:www.csic.es/cbic/cbic.htm 429 221
MOTORES DE
BUSQUEDA
ENLACE A SECUENCIA DE CARACTERES
34
Delimitadores (V)
AGO'05 AGO'06
GOOGLE formulario (España) site:com 6.550.000 72.100.000
MSN SEARCH loc:es site:com 50.797.387 41.904.669
YAHOO SEARCH formulario (España) site:com 140.000.000 90.700.000
ASK sedes nacionales 32.560.000
EXALEAD formulario (España) site:com 15.902.881
AGO'05 AGO'06
GOOGLE formulario (español) site:com 18.000.000 163.000.000
MSN SEARCH language:es site:com 114.474.312 117.455.638
YAHOO SEARCH formulario (español) site:com 224.000.000 133.000.000
ASK lang:ES site:com 114.330.000 58.020.000
EXALEAD language:es site:com 12.333.552 31.087.150
MOTORES DE
BUSQUEDA
IDIOMAS
PAISES
MOTORES DE
BUSQUEDA
35
Delimitadores (VI)
AGO'05 AGO'06
GOOGLE filetype:pdf site:com 17.600.000 98.900.000
MSN SEARCH filetype:pdf site:com 74.963.752 60.397.991
YAHOO SEARCH originurlextension:pdf site:com 72.600.000 69.200.000
EXALEAD filetype:pdf site:com 4.082.595 8.115.109
GIGABLAST type:pdf site:com 133.271
AGO'05 AGO'06
GOOGLE filetype:doc site:csic.es 4.060 32.100
MSN SEARCH filetype:doc site:csic.es 264 185
YAHOO SEARCH originurlextension:doc site:csic.es 2.690 2.530
EXALEAD filetype:doc site:csic.es 317 471
GIGABLAST type:doc site:csic.es 109 195
MOTORES DE
BUSQUEDA
TIPO DE FICHERO
39
Siguiendo a Notess
� Instalación de Copernico 5.2� Capacidad de exportación a Excel
� Experimentos� Cobertura� Tamaño (Copernic)
� Búsqueda de términos (varios motores)� Búsquedas delimitadas (cada motores)� Teoría del máximo
� Solapamiento (Copernic)� 300 primeros resultados
� Calidad de los enlaces (Copernic)� Porcentaje de enlaces muertos (un único motor seleccionado)
41
Visualización
� Relaciones “ocultas”� TouchGraphTouchGraphTouchGraphTouchGraph GoogleGoogleGoogleGoogle www.touchgraph.comwww.touchgraph.comwww.touchgraph.comwww.touchgraph.com////TGGoogleBrowser.htmlTGGoogleBrowser.htmlTGGoogleBrowser.htmlTGGoogleBrowser.html
� Instalación previa del Java JRE 1.3+� Prácticas con un nodo� Prácticas con más de un nodo
� KartooKartooKartooKartoo www.kartoo.comwww.kartoo.comwww.kartoo.comwww.kartoo.com� Prácticas con términos institucionales
44
Metabuscadores
� Primera generaciónVivisimo www.vivisimo.com
ZapMeta www.zapmeta.com
Mooter www.mooter.com
iBoogie www.iboogie.tv
Infonetware www.infonetware.com
MetaEureka www.metaeureka.com
Surfwax www.surfwax.com
Info www.info.com
� Segunda generaciónCopernico (5.2/6.1) www.copernic.com
45
Límites de los Metabuscadores
scientometrics ornithology "Albert Einstein" God
ALLTHEWEB 6.718 258.498 1.108.420 39.421.287
GOOGLE 8.260 112.000 554.000 36.800.000
WISENUT 2.932 90.608 565.892 13.475.757
ALTAVISTA 2.522 50.845 452.982 12.488.621
TEOMA 2.087 42.290 233.850 7.535.000
GIMENEI 73 70 71 82
ICYSPICY 33 57 55 72
METAEUREKA 42 46 56 73
EZ2WWW 395 339 302 335
IBOOGIE 221 238 236 299
VIVISIMO 307 466 220 454
FUZZLE 1.050 1.057 1.016 999
Resultados proporcionados por buscadores y metabuscadores (Octubre 2002)
Buscadores
Metabuscadores
Términos de búsqueda:
47
Recuperación automática inteligente
� Copernic 6.1 Pro www.copernic.com� Indización� Asignación automática de idiomas� Filtrado por región y dominio
� WebQL www.ql2.com� Demostración
� Identificación de los componentes de la URL� Cadena de caracteres a extraer� Muestra de trabajo
50
Calidad, visibilidad e impacto
� Evaluación cuantitativa de sedes Web� El modelo Google
� Instalación de la ToolBar (toolbar.google.com)� Page Rank
� Escala logarítmicarankwhere.com/google-page-rank.phpwww.rustybrick.com/pagerank-prediction.php
� Componentes: visibilidad + peso� Visibilidad
� Tipos de enlaces: inlinks, outlinks, selflinks, backlinks� Cálculo mediante el uso de motores de búsqueda� Impacto Web (WebIF)� Calidad de los enlaces: Inspectores de enlaces