仅传递网站文本内容的代理[关闭]

问题描述 投票:-1回答:1

我正在尝试编写自己的代理,非常简单。我想连接到Wikipedia或类似的网站,并且我只想检索该网站的文本内容,而不检索图像等。我想为此使用Java套接字和Socket服务器。我试图检索一个站点的html代码,并使用reggex从中获取文本,但是当我将其传递给浏览器时,没有格式设置,它看起来像一个网站。您能给我一些技巧吗?我可以用Java编写类似于程序的客户端服务器,并将“ hello world”从一个传递到另一个,但这基本上就是这样。我现在基本失去了,所以我寻求帮助。我读什么?我需要写些什么?对于网络通信,我只能使用ServerSocket和Socket。

java html sockets proxy serversocket
1个回答
0
投票

全部you can't parse Html with regex的拳头,其次不是您要创建的服务器代理

从维基百科,代理是

[在计算机网络中,代理服务器是服务器应用程序或充当客户端请求中介的设备从提供那些资源的服务器中寻找资源。一种因此,代理服务器在请求时代表客户端运行服务,可能会掩盖对请求的真实来源资源服务器。

您试图制作的东西称为网络搜寻器,互联网上有很多教程可以帮助您使用Java进行制作,这是一个很好的介绍,您可能应该将jsoup用于此任务https://www.mkyong.com/java/jsoup-basic-web-crawler-example/

© www.soinside.com 2019 - 2024. All rights reserved.