webdevqa.jp.net

agg関数を適用する前に10進値を2桁に制限するにはどうすればよいですか?

私は this スタックオーバーフローポストの1つのソリューションに従っています。ここでの唯一の要件は、合計する値を、小数点以下2桁に制限してからdf.agg(sum())を適用することです。関数?

例:以下のような値があり、sum関数はそれを合計します。

2.346
1.549

ただし、値を小数点以下2桁に丸めたい

2.35
1.55

合計する前に。どうすればできますか?関数sumsum().roundのようなサブ関数を見つけることができませんでした。

注:私はSpark 1.5.1バージョンを使用しています。

7
Explorer

bround を使用できます:

val df = Seq(2.346, 1.549).toDF("A")
df.select(bround(df("A"), 2)).show
+------------+
|bround(A, 2)|
+------------+
|        2.35|
|        1.55|
+------------+


df.agg(sum(bround(df("A"), 2)).as("appSum")).show
+------------------+
|            appSum|
+------------------+
|3.9000000000000004|
+------------------+
                                          ^
df.agg(sum(df("A")).as("exactSum")).show
+--------+
|exactSum|
+--------+
|   3.895|
+--------+
11
Psidom

上記の解決策はspark 2.0バージョンでは機能しますが、以下の1.5。* +バージョンを使用している私のような人にとっては機能します(@Psidomによって提案されたラウンド関数を使用しました)。 :

val df = Seq(2.346, 1.549).toDF("A")
df.select(bround(df("A"), 2)).show
+------------+
|bround(A, 2)|
+------------+
|        2.35|
|        1.55|
+------------+

val total=df.agg(sum(round(df.col(colName),2)).cast("double")).first.getDouble(0)
total: Double = 3.90
5
Explorer