webdevqa.jp.net

フォーマットごとの書き込みまたは読み取りオプションのリファレンスはどこにありますか?

Spark 1.6.1。

HiveContextおよびDataFrameWriterを使用して、ORCファイルをHDFSに書き込もうとしています。使用できますが

df.write().orc(<path>)

むしろ次のようなことをしたい

df.write().options(Map("format" -> "orc", "path" -> "/some_path")

これにより、このヘルパーライブラリを使用するアプリケーションに応じて、形式またはルートパスを柔軟に変更できます。 DataFrameWriterに渡すことができるオプションへの参照はどこにありますか?ここのドキュメントには何も見つかりませんでした

https://spark.Apache.org/docs/1.6.0/api/Java/org/Apache/spark/sql/DataFrameWriter.html#options(Java.util.Map)

13
Satyam

DataFrameWriterに渡すことができるオプションへの参照はどこにありますか?

最も決定的で信頼できる答えは sources です。

ドキュメントに記載されている説明もありますが、単一のページはありません(最新の状態を維持するためにソースから自動生成される可能性があります)。

理由は、ユースケースごとに提供したい柔軟性を持たせるために、オプションが形式の実装から意図的に分離されているためです(ご指摘の通り)。

これにより、このヘルパーライブラリを使用するアプリケーションに応じて、形式またはルートパスを柔軟に変更できます。


あなたの質問は Databricksでサポートされているファイル形式を知る方法? に似ています。

各ファイル形式でサポートされているオプションのリストはどこで入手できますか?

オプションを定義するための(Spark MLlibのように)従うAPInoがあるため、これは不可能です。残念ながら、すべてのフォーマットはこれを独自に実行します。残念なことに、ドキュメントまたは(より信頼できる)ソースコードを読むことをお勧めします。

17
Jacek Laskowski