• --:)欢迎访问锋网源码(:--
  • 首页
  • RSS订阅
  • 常用软件
  • 网页模板
  • 网站运作
  • 锋网学院
  • 繁體中文

  • 学院首页
  • 新闻资讯
  • 网站运营
  • 网站开发
  • 美工设计
  • 数据库类
  • 服务器类
  • 网络应用
  • 操作系统
  • 软件教学
编程开发   认证考试   网络安全   文章搜索: 高级搜索
会员登录/控制面版 您的位置: 学院首页 >> 网站开发 >> JavaScript >> 文章内容
 

精彩推荐

 
 

本类推荐文章

 
 

本类阅读排行

  • 如何打开IE/Firefox的JavaSc..
  • 学习Ajax教程,详细了解Get与..
  • ajax中文乱码解决方法
  • javascript操作select相关方..
  • 在网页中控制wmplayer播放器
  • 用js写的一个跑马灯
  • JS获取各种浏览器窗口的大小
  • 网页常用特效整理:初级篇
  • 理解JavaScript函数
  • 网页常用特效整理:高级篇
  • 网页图片特效小技巧
  • 网页常用特效整理:中级篇
  • 关于Ajax responseText 的一..
  • JavaScript教程:onmouseover..
  • AS常用代码集锦
  • 用js实现select对div的隐藏与..
  • Javascript 编程规范
  • 用javascript实现随机跳转页..
  • XMLHTTPRequest的属性和方法..
  • 用鼠标控制滚动的菜单条!(J..
 
 

关于搜索引擎页面分析中的 javascript 处理的2个思路

  • 日期:2008-09-05     人气:     出处:     作者:
  • 字体大小:
  • 小
  • 中
  • 大

在制作搜索引擎的时候、或者做页面分析及数据提取的时候,经常面临页面中存在许多JavaScript,这些Javascript 比较烦人,因为有相当部分页面内容写入到了这些js脚本的命令中,而导致正常的DOM分析看不到这些文字,而使其中的文字数据提取失败。

当然,如果这个页面模板确定,针对这个特定的页面制作信息提取模板也不很难,每个页面人工的分析出需要提取的信息的位置,然后制作模板。可是对于 general的网页搜索的话,这就不大现实了。正巧前两天和朋友讨论到这个问题,有些想法。在这里,提供两个思路,供大家参考。

1、做一个简化的 javascript 解释器,执行脚本片段

做一个完整的 javascript 解释器是比较难得,但是做一个简化的 javascript 解释器则很容易。我们不需要那些复杂的库,我们只将基本的 javascript 语法实现,并且将涉及文字输出的函数部分实现就可以了。

这样做的目的并不是要真正的完整执行这个javascript,而是将脚本中的字符串,按照其程序逻辑进行组合,最后输出这个脚本的完整输出。这样自然不全面,肯定由于很多功能没实现,导致输出的字符串和真实的输出不完全一样。但是,如果不出意外,应该不会产生太多的遗漏。因为所有的字符串输出部分我们都实现了,那么完全可以将这些字符串按照其将要输出的逻辑组合在一起。

对于根据动态条件做动态的事情的问题,如果这些条件无法确定,比如根据浏览器类型或者什么的。完全可以将两个分支的结果都输出。当然,我们不应该将这两块文字组合,中间应该有我们理解的分割符。

这样做得好处是高性能。这个解释器可以做得很小巧,由于并非完整执行js,所以性能也较之迅速一些。缺点是由于是简化的解释器,因此和真实的结果会有差异。但是一般来说,信息只会多而不会少,(因为同时输出了不同分支的结果),所以,对于搜索引擎的页面分析来说,差不多是够用了。

2、用HTML渲染引擎完整的解析页面,最后从显示结果中取数据。

采用Gecko (Firefox) 或者Trident (mshtml.dll) (IE) 这些用于浏览器的 HTML 渲染引擎来对页面进行完整的解析和渲染。最后对这些引擎的解析结果进行分析。

这样做得好处是和显示结果最接近,因为他们是页面的真实解析结果。但是缺点是性能相对较差,因为是对页面的所有元素的完整解析,所以做了很多与提取文字信息无用的劳动,如果分析大数据量的页面的时候,需要权衡一下

相关文章
  • javascript 错误“缺少十六进制数字”的处理
  • 使用 JavaScript 获取 table 行号和列号
  • JAVASCRIPT 贪吃蛇
  • Javascript 调用UTF-8页面
  • 怎样从 Javascript 传递一个变量到 PHP
  • JavaScript 调用 Asp.Net 服务器端的事件
  • javascript 获取GET方法的参数
  • JavaScript FSO属性大全
  • javascript OOP:实现继承、多态与封装
  • Javascript 篱式 条件判断
相关软件

  • 网友评论:
  • 查看所有评论
  • 我要发表评论
 

关于本站 | 广告联系 | 版权声明 | 网站地图 | 加入收藏 | 帮助中心 |

Copyright © 2006-2007 fwvv.net  程序支持:木翼  皖ICP备06004916号  

感谢:点击网络 联网科技 天盈信息 中国E速网 59互联  提供服务器及带宽赞助