在Spark,两个DataFrame做join操作后,会出现重复的列。例如:
DatasetmoviesWithRating = moviesDF .join(averageRatingMoviesDF, moviesDF.col("movieId").equalTo(averageRatingMoviesDF.col("movieId")));
其schema如下:
//moviesWithRating.printSchema(); /** * root * |-- _id: struct (nullable = true) * | |-- oid: string (nullable = true) * |-- actors: string (nullable = true) * |-- description: string (nullable = true) * |-- directors: string (nullable = true) * |-- genres: string (nullable = true) * |-- issue: string (nullable = true) * |-- language: string (nullable = true) * |-- movieId: integer (nullable = true) * |-- shoot: string (nullable = true) * |-- timeLong: string (nullable = true) * |-- title: string (nullable = true) * |-- movieId: integer (nullable = true) * |-- avgRating: double (nullable = true) */
我们在继续操作这个DataFrame时,可能就会报错,如下:org.apache.spark.sql.AnalysisException: Reference ‘movieId’ is ambiguous
解决方案有两种方法可以用来移除重复的列
- 方法一:join表达式使用字符串数组(用于join的列)
Seq
joinColumns = JavaConversions.asScalaBuffer(Arrays.asList("movieId")).toList(); Dataset moviesWithRating = moviesDF.join( averageRatingMoviesDF, joinColumns, "inner");
这里DataFrame moviesDF和averageRatingMoviesDF使用了movieId和movieId两列来做join,返回的结果会对这两列去重
如果是scala,解决方案如下:
val moviesWithRating = moviesDf.join(averageRatingMoviesDF, Seq("movieId"))
- 方法二:使用select返回指定的列
Dataset
moviesWithRating = moviesDF .join(averageRatingMoviesDF, moviesDF.col("movieId").equalTo(averageRatingMoviesDF.col("movieId"))) .select( moviesDF.col("movieId"), col("actors"), col("description"), col("directors"), col("genres"), col("issue"), col("language"), col("shoot"), col("timeLong"), col("title"), col("avgRating") );
说明:
如果列较少, 推荐使用第二种.
如果列较多, 推荐使用第一种.
- 方法二:使用select返回指定的列
猜你喜欢
- 16天前(兰州旅游文化产业发展有限公司)甘肃省兰州市2023年乡村旅游暨A级旅游景区管理工作培训班开班
- 16天前(从“见世面”到“内在需要”:在海南,追问旅行的意义)从“见世面”到“内在需要”:在海南,追问旅行的意义
- 16天前(上海文旅产业发展高峰论坛)《上海打造文旅元宇宙新赛道行动方案》发布
- 16天前(中旅酒店 维景)中旅酒店首次AI数字人直播亮相南京维景
- 16天前(甘州区文化旅游局)2025甘津文旅资源对接推介会在兰州举办
- 16天前(辽宁新增6个国家4a级旅游景区有哪些)辽宁新增6个国家4A级旅游景区
- 16天前(“三天跨两城”催生租车新需求,神州租车清明跨城订单同比增长416%)“三天跨两城”催生租车新需求,神州租车清明跨城订单同比增长416%
- 16天前(曹妃甸美仑华府哪个楼层好)曹妃甸新城教育经济新引擎启动—美仑国际酒店盛大开业
- 16天前(我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉)我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉
- 16天前(海南航空现况怎样)用一场直播找到市场扩张新渠道,海南航空做对了什么?
网友评论
- 搜索
- 最新文章
- (2020广州车展哈弗)你的猛龙 独一无二 哈弗猛龙广州车展闪耀登场
- (哈弗新能源suv2019款)智能科技颠覆出行体验 哈弗重塑新能源越野SUV价值认知
- (2021款全新哈弗h5自动四驱报价)新哈弗H5再赴保障之旅,无惧冰雪护航哈弗全民电四驱挑战赛
- (海南航空现况怎样)用一场直播找到市场扩张新渠道,海南航空做对了什么?
- (visa jcb 日本)优惠面面俱到 JCB信用卡邀您畅玩日本冰雪季
- (第三届“堡里有年味·回村过大年”民俗花灯会活动)第三届“堡里有年味·回村过大年”民俗花灯会活动
- (展示非遗魅力 长安启源助力铜梁龙舞出征)展示非遗魅力 长安启源助力铜梁龙舞出征
- (阿斯塔纳航空公司)阿斯塔纳航空机队飞机数量增至50架
- (北京香港航班动态查询)香港快运航空北京大兴新航线今日首航
- (我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉)我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉
- 热门文章