站色视频免费茄子视频|亚洲欧美日韩一级在线|国产精品毛片A∨在线看|一二三四社区在线中文视频|国产精品伦子一区二区三区|97狠狠狠狼鲁亚洲综合网|久久中文字幕综合不卡一二区|毛片TV网站无套内射TV网站

 
您好,歡迎瀏覽黃石美涵信息科技有限公司網(wǎng)站!
135 9763 4395

咨詢熱線

7X24小時服務

阿里云、微軟云、美橙互聯(lián) 黃石地區(qū)產(chǎn)品經(jīng)銷商

關于代理商模板

超值服務提供卓越產(chǎn)品

   
  
  
新聞公告 News
   
認識搜索引擎,成為搜索高手
來源: | 作者:hsmh888168 | 發(fā)布時間: 2017-03-21 | 1335 | 分享到:

數(shù)量的數(shù)據(jù)需要搜索引擎去索引,索引后還是海量的數(shù)據(jù),要能精準搜索到自己需要的信息,需要遵循一定的技巧和方法。

1、什么是搜索引擎

搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。百度和谷歌等是搜索引擎的代表。

2、Web信息資源的特性

  • 海量規(guī)模;

  • 分散無序;

  • 動態(tài)更新,不穩(wěn)定;

  • 種類或形式多種多樣;

  • 非結構化或半結構化;

  • 主義冗余、質量缺乏控制;

  • 需求和使用方式個性化;

3、搜索引擎的發(fā)展

早期的搜索引擎:早期以AltaVista、Excite為代表,用于自動采集網(wǎng)頁的“機器人”程序相對較弱,一般只對網(wǎng)頁的標題、URL等信息進行自動索引,對返回的檢索結果有時也不排序;

全文搜索引擎的普及:對網(wǎng)頁的全文進行自動采集與索引,支持全文檢索;

4、搜索引擎的分類

4.1 按內容或數(shù)據(jù)收錄的范圍分

4.1.1 綜合類搜索引擎:如google、百度;

4.1.2 專業(yè)類搜索引擎

也叫垂直搜索引擎,是針對特定的行業(yè)、領域、主題的專門搜索引擎。由于只面對一個方面,垂直搜索提供的結果更加專業(yè)、深入、具體和有序。如mp3搜索,結果全是歌曲,有歌詞,能方便地試聽。除mp3搜索外,常用的有圖片搜索、視頻搜索、新聞搜索。如果想找圖片、視頻、了解新聞,那么直接用相應的垂直搜索無疑更高效。如,Business

4.2 按信息的組織方式或檢索方式分:

4.2.1 索引式搜索引擎:如google、百度;

4.2.2 目錄式搜索引擎:Yahoo Galaxy go.com goguides

4.2.3 元搜索引擎:萬緯 MetaCrawler Mamma Search Dogpile ixquick; fefoo limmz

4.2.4 終端元搜索引擎軟件:WebFerret 颶風

4.2.5 集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

4.2.6 門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結果完全來自其他搜索引擎。

5、計算機檢索技術

5.1 布爾邏輯檢索:嚴格意義上的布爾檢索法是指利用布爾邏輯運算符連接各個檢索詞,然后由計算機進行相應邏輯運算,以找出所需信息的方法。它使用面最廣、使用頻率最高。布爾邏輯運算符的作用是把檢索詞連接起來,構成一個邏輯檢索式。

5.2 截詞檢索(truncation searching):用截斷的詞的一個局部進行檢索,并認為凡滿足這個詞局部中的所有字符的資料,都為命中的資料;截詞是指用符號代替變化的部分。如“system?"、"comput?"、"wom?n"、"?ology";

5.3 字段限定檢索(limit searching):限定在數(shù)據(jù)庫記錄中的一個或幾個字段范圍內查找檢索詞;

5.4 詞位置檢索:指限定檢索詞之間的位置關系;(proximate searching)

5.5 聚類檢索:首先要把將全部資料按相似度進行聚類歸檔,檢索時直接在類目內匹配;

5.6 相關反饋與提問式擴展技術:指系統(tǒng)對檢索詞進行適當?shù)男拚笤龠M行檢索;

5.7 可視化檢索技術:對檢索詞構造、檢索過程、檢索結果都可考慮可視化;

6、搜索相關名詞

6.1 網(wǎng)頁快照:是搜索引擎對該鏈接有效時在其服務器做的一個備份;

6.2 高級搜索:可以讓我們不輸入搜索引擎的語法就能使用搜索引擎支持的很多功能,以縮小搜索范圍、提供更精確的搜索結果。

成為搜索高手1|認識搜索引擎SearchEngine


6.3 搜索結果頁:用戶在輸入關鍵詞,單擊搜索按鈕后,搜索引擎進入的頁面,顯示出根據(jù)關鍵詞做出的搜索結果列表。每一項內容一般包括統(tǒng)計行、網(wǎng)頁標題、網(wǎng)頁摘要、網(wǎng)址、網(wǎng)頁快照等內容;

6.4 搜索語法:利用語法可以進行更復雜的條件搜索,可大大提高搜索的效率和精度;需要注意的是,所有搜索引擎可能有一些共同的語法規(guī)則,也有自己的規(guī)則,另外,隨著某一搜索引擎的發(fā)展與完善,自身的語法規(guī)則可能也會有不斷的更新和完善;

6.5 搜索引擎默認搜索類別,“網(wǎng)頁”:其實是搜索綜合的內容,包括文本、圖片、視頻、音頻等,網(wǎng)頁是網(wǎng)絡基本的單元,一切內容都可納入其中;“網(wǎng)頁”搜索內容全面、豐富、包羅萬象,但往往也需要更多的時間去篩選需要的內容;與之相對應的是垂直搜索(也叫分類搜索,對應于搜索引擎上的其它選項卡),由于只面對一個方面,垂直搜索提供的結果更加專業(yè)、深入、具體和有序。

7、Google的服務器規(guī)模

谷歌的神秘面紗包括:一、軟件 二、硬件 三、集群平等處理機制。

  • 谷歌軟件的3個核心要素:谷歌文件系統(tǒng)、谷歌的分布式存儲系統(tǒng)和處理龐大數(shù)據(jù)的程序設計模式。

  • 硬件卻是一般的服務器、處理器、硬盤和內存等。

  • 服務器的集群能在半秒之內回應700至1000臺服務器的處理搜索請求。

Google作為全球排名第一的搜索引擎,面向全球提供多語種的搜索服務,由其服務器規(guī)模,可以想像全球的數(shù)據(jù)規(guī)模的大小。

7.1 谷歌每天需要存儲驚人的數(shù)據(jù)量,需要上述的硬件增加和軟件匹配;

7.2 谷歌在全球多個一線國家和地區(qū)都有數(shù)據(jù)中心,只是規(guī)模有所區(qū)別而已;

7.3 谷歌到底擁有多少臺服務器?谷歌一直以來是秘而不宣,估計總共應該是千萬臺級別的服務器規(guī)模

7.4 需要足夠的電力,其產(chǎn)生的熱量也是驚人的,所以要需要先進的冷卻技術。

成為搜索高手1|認識搜索引擎SearchEngine

成為搜索高手1|認識搜索引擎SearchEngine

成為搜索高手1|認識搜索引擎SearchEngine

成為搜索高手1|認識搜索引擎SearchEngine

成為搜索高手1|認識搜索引擎SearchEngine

成為搜索高手1|認識搜索引擎SearchEngine