您可能想尝试直接向相应的注册表查询有关访问区域文件的信息。然而,该过程可能需要数周时间,并且一些注册管理机构选择根本不提供访问权限。对于较新的 GTLD,您可以在
ICANN 的集中区域数据服务进行申请。您可能需要提供充分的理由才能访问完整列表。不过,区域文件每天只能提取一次,因此要获得更多最新信息,唯一的选择是付费服务。
Whois API提供主要 GTLD(.com、.net、.org、.us、.biz、.mobi 等)的完整 whois 数据库下载。它还提供已解析和原始格式的存档历史 Whois 数据库,可供下载为 CSV 文件,以及每日下载新注册域名。 一个类似的、流行的
问题$ wget https://data.commoncrawl.org/crawl-data/CC-MAIN-2023-40/cc-index.paths.gz
$ gunzip -c cc-index.paths.gz | while IFS= read -r line; do
wget -nc "https://data.commoncrawl.org/$line"
done
$ zgrep -oh -E '(?[a-zA-Z0-9\-\.]|\%2D)+\.hr' *.gz | tee domains.txt
这会提取常见抓取数据并扫描它以查找任何类似于 TLD .hr 域名的内容。在获取通过 HTTP 或 HTTPS 公开可见的任何内容方面,结果出奇的好。
您可以在此处查找新数据集:
Common Crawl datasets