tensorflow深度学习模型读取parquet数据进行训练实现

Just Jump

1453人浏览 · 2022-09-06 19:27:52

Just Jump · 2022-09-06 19:27:52 发布

从hdfs下载parquet数据，并使用pandas读取。

import pandas as pd
df = pd.read_parquet(hfs_path)

如果没有装过一些读取parquet相关的包，会报如下错误：

ImportError: Unable to find a usable engine; tried using: 'pyarrow', 'fastparquet'.
pyarrow or fastparquet is required for parquet support

此时，安装下相关包即可。

$ conda install -c conda-forge pyarrow
$ conda install -c conda-forge fastparquet

或者

!pip install pyarrow
!pip install fastparquet

如果下载安装的速度太慢，可以切换不同的镜像源。

命令如下：pip install fastparquet -i https://mirrors.cloud.tencent.com/pypi/simple

** 安装fastparquet的时候报错，报错信息是系统没有gcc命令。按照系统提示执行 yum install gcc

附录：国内不同的镜像源地址：

清华：https://pypi.tuna.tsinghua.edu.cn/simple

阿里云：http://mirrors.aliyun.com/pypi/simple/

腾讯云：https://mirrors.cloud.tencent.com/pypi/simple

豆瓣：http://pypi.douban.com/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

华中理工大学：http://pypi.hustunique.com/

山东理工大学：http://pypi.sdutlinux.org/
————————————————

成功读取parquet数据后，就可以进行数据读取、类型转换操作了。

def preprocess_parquet_features(feature_hdfs_path):
    feature_local_path = os.path.join(os.getcwd(), "parquet_features")
    mkdir_local_path(feature_local_path)
    os.system("""hadoop fs -get {}/part-* {}""".format(feature_hdfs_path, feature_local_path))
    # 格式转换
    features = []
    for parent, dirnames, filenames in os.walk(feature_local_path):
        for filename in filenames:
            if filename.endswith('.parquet') and filename.startswith('part-'):
                feature_file = os.path.join(parent, filename)
                features.append(pd.read_parquet(feature_file))
    data = pd.concat(features, ignore_index=True)

    features = []
    for num in range(data.order_vector.size):
        features.append(data.order_vector[num]['values'].tolist() + data.view_vector[num][
                'values'].tolist() + data.add_cart_vector[num][
                'values'].tolist())

    features_df = pd.DataFrame(features)

    from sklearn.model_selection import train_test_split
    X_train_full, X_test, y_train_full, y_test = train_test_split(features_df,
                                                                  data.label,
                                                                  test_size=0.2,
                                                                  random_state=42)
    X_train, X_valid, y_train, y_valid = train_test_split(X_train_full,
                                                          y_train_full,
                                                          test_size=0.2,
                                                          random_state=42)

    return X_train_full, X_test, y_train_full, y_test, X_train, X_valid, y_train, y_valid

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

从具身智能到行业应用，腾讯云携业界专家共话 AI 新趋势

在热烈的讨论气氛下，本次活动圆满落幕。与会专家实地参观大模型创新生态社区“模速空间”，体验 AI 前沿创新应用落地。来自工业制造、数字化、AI领域的专家分享最新 AI 落地实践与思考，共同探讨从认知智能到物理交互的前沿先进路径，让我们看到AI在各行业释放出的巨大潜力。在头脑风暴环节，各位专家从不同角度深入探讨 AI 技术发展路径，提出诸多具有建设性的观点与建议，提供创新思路与方向，开启智能新时代的

腾讯云开发者社区

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手