我的疑问是关于在 Geopandas 中实现
read_file()
或 from_file()
函数的速度。
我创建的程序需要读取大约 900,000 行的文件。当我在自己的电脑中指定路径时,大约需要 3 分钟。
但是,通过共享驱动器,需要 45 分钟以上,对于应用程序来说并不理想。
我知道所使用的 VPN 使整个过程极其缓慢,但是公司如何使用访问庞大数据集的应用程序,并且不会花费不合理的时间。是特定服务器吗?
我的最终目标是让使用共享驱动器的每个人都可以访问我制作的应用程序,而无需下载文件并更改代码来读取它们。
感谢您的帮助
不确定它是否能解决您的具体问题,但您始终可以通过安装和使用 pyogrio I/O 引擎来读取数据来加速 geopandas I/O...总体来说速度要快得多,不确定如果它会给你的具体问题带来显着的不同。
添加
use_arrow=True
参数应该会带来另一个加速,但是你还必须安装 pyarrow
库:
import geopandas as gpd
gdf = gpd.read_file(r'path/to/file.gpkg', engine='pyogrio', use_arrow=True)