行业动态采集范围

2025-03-11 22:15:23 0

       采集范围。网页档案的采集有不同的采集策略,不同的采集策略决定了不同的采集范围,可分为完整型采集、选择型采集以及混合型采集。

        完整型采集是对特定网域的全域进行自动化采集,采集范围广、内容多。美国的IA宗旨是保存互联网的全面记录,对全球公开的网站进行定期采集。每两个月,网站页面快照都会被互联网存档,自IA项目启动以来,互联网存档已经存储了2730亿个网页。

        选择型采集是有针对性地捕获特定的网站,通常是根据事件、主题进行选择采集,采集范围小,需要借助人力。例如,澳大利亚的PANDORA项目只采集与澳大利亚相关,且具有文化意义的网站;美国国会图书馆的Library of Congress Web Archives(以下简称LCWA)项目,重点采集与国家利益主题相关的网页资源,包括美国选举、伊拉克战争和911事件;苏格兰的NRS网页档案项目,事先制定指南,根据指南采集其范围内组织创建和拥有的网站,包括苏格兰政府、苏格兰议会、苏格兰法院等。
        混合型采集是将两种策略相结合,先大范围地对网站进行完整采集,再有重点地针对某些特定的网站进行深度、频繁的选择性采集。英国的UKWA项目,首先爬网内容是在英国发布的网站,如那些在英国顶级域名上的网站.uk、.cymru和.scot,以及可以手动识别出在英国发布的网站,再由工作人员定期关注、收集有关特定事件、主题或兴趣领域的网站。

本文地址:https://www.6nao.com/article/21662.html
分享到: QQ空间 新浪微博 腾讯微博 人人网 微信 开心网 百度贴吧 豆瓣网

填写您的项目需求给我们

*请认真填写需求信息,我们会在24小时内与您取得联系。

招聘 18267911455
  • Contact Number

    18267911455 / 19558451994

    工作时间:8:00 - 17:00
  • Address

    浙江省义乌市后宅街道德胜小区十一幢三单元四楼

备案号:ICP2024104151号-1
网站地图
电话:18267911455
Copyright © 2025 6NAO All rights reserved.