FAQ
皆様
AWS256です。

WordCountを作成してみました。

FileInputFormat.setInputPaths(job, new Path(args[0]));

そこで少し改良を加えてみようとしています。
複数のファイルのなかで一部のみを読み込みたいということです。

データは次の通りです。
------------------------------
input/dat1.dat
input/dat2.dat
input/dat3.dat
input/dat4.dat
input/dat5.dat

入力パスをinputとしてしまうとすべて読み込まれてしまいます。

です、次のようにコンマ区切りにしてみましたが駄目でした。
------------------------------
Newinput/Input3.dat, Newinput/Input4.dat NewOutput


----------------------------
Newinput/Input3.dat,
Newinput/Input4.dat
13/09/17 20:24:32 INFO jvm.JvmMetrics: Initializing JVM Metrics with
processName=JobTracker, sessionId=
13/09/17 20:24:32 WARN mapred.JobClient: No job jar file set. User classes
may not be found. See JobConf(Class) or JobConf#setJar(String).
Exception in thread "main"
org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path
does not exist:
file:/C:/$CreationLine/workspace/newwdcount/Newinput/Input3.dat,
     at
org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:224)
     at
org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:241)
     at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885)
     at
org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779)
     at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
     at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)
     at test.test.WordCountDriver.main(WordCountDriver.java:59)

コンマ区切りのファイル名をそのまま書いてはだめですか?
args[0]として受け取った時点で何をすればいいですか?
ご教授お願い致します。

--

---
You received this message because you are subscribed to the Google Groups "CDH Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to cdh-user+unsubscribe@cloudera.org.
For more options, visit https://groups.google.com/a/cloudera.org/groups/opt_out.

Search Discussions

  • Tatsuo Kawasaki at Sep 17, 2013 at 2:30 pm
    AWS256さん

    こんにちは、川崎と申します。

    いくつか方法がありますが、まずはプログラム中で
    FileInputFormat.setInputPathFilterを使って特定のファイルを
    除外する方法があります。

    あるいは、もっと簡単に行うようであればグロビングが
    良いかもしれません。

    例:
    hadoop jar test.jar input/dat[1-3].dat output

    以上、よろしくお願いします。
    --
    川崎




    2013/9/17 <awk256@gmail.com>
    皆様
    AWS256です。

    WordCountを作成してみました。

    FileInputFormat.setInputPaths(job, new Path(args[0]));

    そこで少し改良を加えてみようとしています。
    複数のファイルのなかで一部のみを読み込みたいということです。

    データは次の通りです。
    ------------------------------
    input/dat1.dat
    input/dat2.dat
    input/dat3.dat
    input/dat4.dat
    input/dat5.dat

    入力パスをinputとしてしまうとすべて読み込まれてしまいます。

    です、次のようにコンマ区切りにしてみましたが駄目でした。
    ------------------------------
    Newinput/Input3.dat, Newinput/Input4.dat NewOutput


    ----------------------------
    Newinput/Input3.dat,
    Newinput/Input4.dat
    13/09/17 20:24:32 INFO jvm.JvmMetrics: Initializing JVM Metrics with
    processName=JobTracker, sessionId=
    13/09/17 20:24:32 WARN mapred.JobClient: No job jar file set. User
    classes may not be found. See JobConf(Class) or JobConf#setJar(String).
    Exception in thread "main"
    org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path
    does not exist:
    file:/C:/$CreationLine/workspace/newwdcount/Newinput/Input3.dat,
    at
    org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:224)
    at
    org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:241)
    at
    org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885)
    at
    org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)
    at test.test.WordCountDriver.main(WordCountDriver.java:59)

    コンマ区切りのファイル名をそのまま書いてはだめですか?
    args[0]として受け取った時点で何をすればいいですか?
    ご教授お願い致します。

    --

    ---
    You received this message because you are subscribed to the Google Groups
    "CDH Users" group.
    To unsubscribe from this group and stop receiving emails from it, send an
    email to cdh-user+unsubscribe@cloudera.org.
    For more options, visit
    https://groups.google.com/a/cloudera.org/groups/opt_out.


    --
    --
    川崎 達夫 (Tatsuo Kawasaki)
    Cloudera株式会社
    エデュケーションサービス
    kawasaki@cloudera.com
    http://www.cloudera.co.jp/

    Get Apache Hadoop for the Enterprise at http://www.cloudera.com/downloads/

    --

    ---
    You received this message because you are subscribed to the Google Groups "CDH Users" group.
    To unsubscribe from this group and stop receiving emails from it, send an email to cdh-user+unsubscribe@cloudera.org.
    For more options, visit https://groups.google.com/a/cloudera.org/groups/opt_out.
  • 李昌桓 at Sep 18, 2013 at 2:17 am
    川崎様

    大変ありがとうございます。
    早速試してみます。

    よろしくお願いします。


    2013年9月17日 23:30 Tatsuo Kawasaki <kawasaki@cloudera.com>:
    AWS256さん

    こんにちは、川崎と申します。

    いくつか方法がありますが、まずはプログラム中で
    FileInputFormat.setInputPathFilterを使って特定のファイルを
    除外する方法があります。

    あるいは、もっと簡単に行うようであればグロビングが
    良いかもしれません。

    例:
    hadoop jar test.jar input/dat[1-3].dat output

    以上、よろしくお願いします。
    --
    川崎




    2013/9/17 <awk256@gmail.com>
    皆様
    AWS256です。

    WordCountを作成してみました。

    FileInputFormat.setInputPaths(job, new Path(args[0]));

    そこで少し改良を加えてみようとしています。
    複数のファイルのなかで一部のみを読み込みたいということです。

    データは次の通りです。
    ------------------------------
    input/dat1.dat
    input/dat2.dat
    input/dat3.dat
    input/dat4.dat
    input/dat5.dat

    入力パスをinputとしてしまうとすべて読み込まれてしまいます。

    です、次のようにコンマ区切りにしてみましたが駄目でした。
    ------------------------------
    Newinput/Input3.dat, Newinput/Input4.dat NewOutput


    ----------------------------
    Newinput/Input3.dat,
    Newinput/Input4.dat
    13/09/17 20:24:32 INFO jvm.JvmMetrics: Initializing JVM Metrics with
    processName=JobTracker, sessionId=
    13/09/17 20:24:32 WARN mapred.JobClient: No job jar file set. User
    classes may not be found. See JobConf(Class) or JobConf#setJar(String).
    Exception in thread "main"
    org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path
    does not exist:
    file:/C:/$CreationLine/workspace/newwdcount/Newinput/Input3.dat,
    at
    org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:224)
    at
    org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:241)
    at
    org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885)
    at
    org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)
    at test.test.WordCountDriver.main(WordCountDriver.java:59)

    コンマ区切りのファイル名をそのまま書いてはだめですか?
    args[0]として受け取った時点で何をすればいいですか?
    ご教授お願い致します。

    --

    ---
    You received this message because you are subscribed to the Google Groups
    "CDH Users" group.
    To unsubscribe from this group and stop receiving emails from it, send an
    email to cdh-user+unsubscribe@cloudera.org.
    For more options, visit
    https://groups.google.com/a/cloudera.org/groups/opt_out.


    --
    --
    川崎 達夫 (Tatsuo Kawasaki)
    Cloudera株式会社
    エデュケーションサービス
    kawasaki@cloudera.com
    http://www.cloudera.co.jp/

    Get Apache Hadoop for the Enterprise at http://www.cloudera.com/downloads/

    --

    ---
    You received this message because you are subscribed to the Google Groups
    "CDH Users" group.
    To unsubscribe from this group and stop receiving emails from it, send an
    email to cdh-user+unsubscribe@cloudera.org.
    For more options, visit
    https://groups.google.com/a/cloudera.org/groups/opt_out.
    --

    ---
    You received this message because you are subscribed to the Google Groups "CDH Users" group.
    To unsubscribe from this group and stop receiving emails from it, send an email to cdh-user+unsubscribe@cloudera.org.
    For more options, visit https://groups.google.com/a/cloudera.org/groups/opt_out.

Related Discussions

Discussion Navigation
viewthread | post
Discussion Overview
groupcdh-user @
categorieshadoop
postedSep 17, '13 at 11:42a
activeSep 18, '13 at 2:17a
posts3
users2
websitecloudera.com
irc#hadoop

2 users in discussion

李昌桓: 2 posts Tatsuo Kawasaki: 1 post

People

Translate

site design / logo © 2022 Grokbase