精品专区-精品自拍9-精品自拍三级乱伦-精品自拍视频-精品自拍视频曝光-精品自拍小视频

網站建設資訊

NEWS

網站建設資訊

mshtml獲取meta信息

為了計算文本與標題相似度,需要用到標題文本。而爬數據的時候將文件名設置為url而沒有用網頁標題來存,所以需要解析網頁提取,工程在.net平臺下利用webbrowser實現的,用到了微軟的mshtml。

網站建設哪家好,找成都創新互聯公司!專注于網頁設計、網站建設、微信開發、微信小程序定制開發、集團企業網站建設等服務項目。為回饋新老客戶創新互聯還提供了宣城免費建站歡迎大家使用!

用IHTMLDocument2.title倒是可以獲得標題,但是它取得的標題有時會包含網站名如: Colorado shooting suspect sent to trial | World news | guardian.co.uk

為了計算準確,希望只有當前主題網頁中的標題就是只有Colorado shooting suspect sent to trial。觀察html發現一般主題網頁的meta信息中會有不包含網站名的title,在格式如下的一個標簽里。于是用正則匹配IHTMLElement的outerhtml,嘗試各種正則都沒匹配到。

原來outerhtml中只有body結點中的html,并不包含meta信息。然后google查有什么方法獲得meta中的內容,發現一個解決方法http://forums.asp.net/p/1455331/3332061.aspx。關鍵代碼貼在這里:

 

  1. foreach (IHTMLElement el in (IHTMLElementCollection)doc.all) 
  2.        { 
  3.            // check to see if all the desired attributes were found with the correct values 
  4.            bool qualify = true; 
  5.            if (el.tagName == "META") 
  6.            { 
  7.                HTMLMetaElement meta = (HTMLMetaElement)el; 
  8.                Response.Write("Content " + meta.content +"
    "); 
  9.            } 

利用IHTMLDocument2可以獲得所有標簽信息,包括meta中的。然后再用正則或者字符串匹配在其中找相應的title信息,完成。


當前題目:mshtml獲取meta信息
網頁路徑:http://m.jcarcd.cn/article/pgohdp.html
主站蜘蛛池模板: 国产大道香蕉大在线 | 国产综合精品国 | 日本网站成人直播 | 日本一区 | 国产精品偷伦视频免 | 国产欧美精品区一 | 国产乱理论在线观看 | 人人精品午夜视频 | 国产亚洲老熟女视频 | 日韩中文字幕手机 | 老司机导航成人影院 | 国产专区一区 | 欧美午夜在线观看 | 91九色熟女| 另类国产亚洲日韩 | 日韩欧美高清一区 | 最新国产在线拍揄自揄 | 露脸国产 | 国产成视频在线观看 | 精品蜜桃臀1区2区 | 波多野结衣福利在线 | 国产又粗又猛又爽 | 绿帽一区二区 | 三级特黄60 | 国产素人搭讪在线 | 国产最新精品 | 国产在线观看精品 | 国产亚洲视频在线 | 国产国产成年在 | 91精品手 | 日本韩国在线电影 | 91国内精品视频 | 老汉色影院首页 | 欧美日韩乱伦视频 | 人人综合亚洲 | 国产精品区一 | 国产姐弟乱伦 | 国产操女 | 精品一区二区三区中 | 国产亚洲午夜福 | 福利导航99 |