dev2dev.bea.com.cn
首页 资源中心 dev2dev学堂 在线技术论坛 专家Blog User Group CodeShare

WWW Crawler与IIS的WIA验证

2008-02-29 14:38:14 | 评论 (0) | 被访问(146)次

王伟超
  2006年加入BEA系统有限公司Business Interaction Division,资深技术支持工程师。支持亚太地区的Oracle WebCenter Interaction/Web Center Services (ALUI/ALPEP和ALBPM)产品。Specialties: OS, Portal, BPM, App Server, DB, Web 2.0。任何文章未经本人许可,禁止转载!


WWW Crawler与IIS的WIA验证
 
WWW Crawler是ALUI中核心组件ALI中自带的功能组件,主要是用来抓取第三方网页,以Card的形式存放在Knowledge Directory中,并对网页的内容和metadata进行索引使其可搜索。
 
抓取一般的网站非常简单,用自带的World Wide Web web service就可以创建WWW Crawler,但是仅限于有Anonymous Access即匿名访问权限的Website。
 
对于有Windows Integrated Authentication验证的web site,以IIS为例,默认的WWW Content Source是无法对付的。
 
我们需要做:
  1. 创建一个新的Content Source WWW
  2. 创建新的Content Crawler WWW
  3. 创建一个job,定期执行(当然也可以创建,直接用其他job跑)
但是如果仅仅用WIA验证,WWW Crawler是无法抓取网页的。你会得到如下错误:
Feb 29, 2008 11:23:21 AM- *** Job Operation #1 failed: This crawl could not be launched because the location from which it was supposed to start, http://hostname/test could not be found or was inaccessible. When the crawler attempted to visit this location it received the following message: -2147203840 - CPTWebCrawlProvider::GetChildNodes, could not open : http://hostname/test(282610)
 
目前解决办法只有一个,就是enable Basic Authentication,也就是明文… 图中是IIS6,Server 2008中IIS7我已经找不到在哪里设置了,以后在研究了吧。


 
Apache httpd/Weblogic Server/Tomcat应该也有Basic Auth,还有待具体测试验证。估计如果是用和LDAP整合的验证,也是无法抓取的。
 
这样就可以抓了,这个问题应该是很容易解决的,在SharePoint Console中早就实现了该功能。不管是Windows SharePoint Service还是MOSS2007,都是WIA验证的,只要把这块代码重用一下就行了…
 
等待ALI 6.x (X>5)中解决这个问题了。


Tags: portal AquaLogic User Interaction ALUI Plumtree ALI Web2.0 authentication wia windows
文章评论:(以下网友留言只代表个人观点,不代表BEA观点和立场)
暂时没有评论!

2008年02月

        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29    
             
RSS订阅

王伟超's Blog搜索