将 DataFrame 列类型从字符串转换为日期时间

问题描述 投票:0回答:7

如何将 DataFrame 字符串列(dd/mm/yyyy 格式)转换为日期时间 dtype?

python pandas dataframe datetime-format python-datetime
7个回答
720
投票

最简单的方法是使用

to_datetime
:

df['col'] = pd.to_datetime(df['col'])

它还为欧洲时报提供了

dayfirst
论证(但要注意这并不严格)。

这是在行动:

In [11]: pd.to_datetime(pd.Series(['05/23/2005']))
Out[11]:
0   2005-05-23 00:00:00
dtype: datetime64[ns]

您可以传递特定的格式

In [12]: pd.to_datetime(pd.Series(['05/23/2005']), format="%m/%d/%Y")
Out[12]:
0   2005-05-23
dtype: datetime64[ns]

72
投票

如果您的日期列是格式为“2017-01-01”的字符串 您可以使用 pandas astype 将其转换为日期时间。

df['date'] = df['date'].astype('datetime64[ns]')

或者如果您想要日精度而不是纳秒,请使用 datetime64[D]

print(type(df_launath['date'].iloc[0])) 

产量

<class 'pandas._libs.tslib.Timestamp'>

与使用 pandas.to_datetime 时相同

您可以尝试使用“%Y-%m-%d”以外的其他格式,但至少这是有效的。


55
投票

如果您想指定棘手的格式,可以使用以下内容:

df['date_col'] =  pd.to_datetime(df['date_col'], format='%d/%m/%Y')

有关

format
的更多详细信息请参见此处:


22
投票

如果您的约会有多种格式,请不要忘记设置

infer_datetime_format=True
让生活更轻松。

df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True)

来源:pd.to_datetime

或者如果您想要定制方法:

def autoconvert_datetime(value):
    formats = ['%m/%d/%Y', '%m-%d-%y']  # formats to try
    result_format = '%d-%m-%Y'  # output format
    for dt_format in formats:
        try:
            dt_obj = datetime.strptime(value, dt_format)
            return dt_obj.strftime(result_format)
        except Exception as e:  # throws exception when format doesn't match
            pass
    return value  # let it be if it doesn't match

df['date'] = df['date'].apply(autoconvert_datetime)

8
投票
多个日期时间列

如果您想将多个字符串列转换为日期时间,那么使用

apply()
会很有用。

df[['date1', 'date2']] = df[['date1', 'date2']].apply(pd.to_datetime)

您可以将参数作为 kwargs 传递给

to_datetime

df[['start_date', 'end_date']] = df[['start_date', 'end_date']].apply(pd.to_datetime, format="%m/%d/%Y")

传递到

apply
,而不指定
axis
,仍会针对每列以矢量方式转换值。这里需要 apply
,因为 
pd.to_datetime
 只能在单个列上调用。如果必须在多个列上调用它,则选项要么使用显式 
for-loop
,要么将其传递给 
apply
。另一方面,如果您在列上使用 
pd.to_datetime
(例如 
apply
)调用 
df['date'].apply(pd.to_datetime))
,则不会进行矢量化,应该避免。


使用
format=
 加速
如果该列包含

time 组件并且您知道日期时间/时间的格式,则显式传递格式将显着加快转换速度。不过,如果该列只有日期,则几乎没有任何区别。在我的项目中,对于具有 500 万行的列,差异是巨大的:~2.5 分钟 vs 6 秒。

事实证明,显式指定格式的速度大约快 25 倍。下面的运行时图显示,根据是否传递格式,性能存在巨大差距。


用于生成绘图的代码:

import perfplot import random mdYHM = range(1, 13), range(1, 29), range(2000, 2024), range(24), range(60) perfplot.show( kernels=[lambda x: pd.to_datetime(x), lambda x: pd.to_datetime(x, format='%m/%d/%Y %H:%M')], labels=['pd.to_datetime(x)', "pd.to_datetime(x, format='%m/%d/%Y %H:%M')"], n_range=[2**k for k in range(19)], setup=lambda n: pd.Series([f"{m}/{d}/{Y} {H}:{M}" for m,d,Y,H,M in zip(*[random.choices(e, k=n) for e in mdYHM])]), equality_check=pd.Series.equals, xlabel='len(df)' )
    

1
投票
尝试这个解决方案:

    改变
  • '2022–12–31 00:00:00' to '2022–12–31 00:00:01'
    
    
  • 然后运行此代码:
  • pandas.to_datetime(pandas.Series(['2022–12–31 00:00:01']))
    
    
  • 输出:
  • 2022–12–31 00:00:01
    
    

0
投票
print(df1.shape) (638765, 95) %timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR']) 473 ms ± 8.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) %timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'], format='mixed') 688 ms ± 3.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) %timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'], format='%Y-%m-%d %H:%M:%S') 470 ms ± 7.31 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
    
© www.soinside.com 2019 - 2024. All rights reserved.