Skip to content

aio

AI王 (AI king) is a Japanese quiz dataset developed for research and competition purposes.

References:

  • Hugging Face Dataset
  • AI王 〜クイズAI日本一決定戦〜
  • JAQKET: クイズを題材にした日本語 QA データセットの構築
    local dataset_base_args = {
      class_path: 'HFGenerationDataset',
      init_args: {
        path: 'sbintuitions/aio-extended-answers',
        split: 'validation',
        reference_list_template: '{{ answers }}',
      },
    };
    
    {
      class_path: 'Generation',
      init_args: {
        eval_dataset: dataset_base_args,
        prompt_template: '{{ question }}答えは「',
        metrics: [
          {
            class_path: 'CharF1',
            init_args: {
              lm_output_processor: { class_path: 'AIONormalizer' },
              reference_processor: { class_path: 'AIONormalizer' },
            },
          },
          {
            class_path: 'ExactMatch',
            init_args: {
              lm_output_processor: { class_path: 'AIONormalizer' },
              reference_processor: { class_path: 'AIONormalizer' },
            },
          },
        ],
        gen_kwargs: { max_new_tokens: 64, stop_sequences: ['」'] },
        batch_size: 1,
      },
    }
    

jamcqa

JamC-QA

This benchmark evaluates knowledge specific to Japan through multiple-choice questions. It covers eight categories: culture, custom, regional_identity, geography, history, government, law, and healthcare. Achieving high performance requires broad and detailed understanding of Japan across these categories.

References:

  • Hugging Face Dataset
    local dataset_base_args = {
      class_path: 'HFGenerationDataset',
      init_args: {
        path: 'sbintuitions/JamC-QA',
        subset: 'v1.0',
        split: 'test',
        reference_template: '{% set choices = [choice0, choice1, choice2, choice3] %}{{ choices[answer_index] }}',
      },
    };
    
    local template_blank = |||
      質問:: {{ question }}, 選択肢::
       {{ choice0 }}
       {{ choice1 }}
       {{ choice2 }}
    ||| + ' {{ choice3 }}, 回答::';
    
    local template_culture = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 秋の季語でないものを選択肢の中から選べ, 選択肢::
       月見
       紅葉
       麗か
       山粧う, 回答:: 麗か
      質問:: 七段飾りの雛人形を飾る際、5段目に並べるものはどれ?, 選択肢::
       随身
       御駕篭
       箪笥
       仕丁, 回答:: 仕丁
      質問:: 萬歳楽・新年・東遊・越天楽のうち、催馬楽に当たるものはどれ, 選択肢::
       萬歳楽
       新年
       越天楽
       東遊, 回答:: 新年
      質問:: 餅つきで杵を振る人はつき手と呼ぶが、もち米をひっくり返す人は何と呼ぶか選択肢から選べ, 選択肢::
       返し手
       押し手
       こね手
       もみ手, 回答:: 返し手
    ||| + template_blank;
    
    local template_custom = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 地鎮祭を実施するのに良いとされている日はどれ, 選択肢::
       先負
       友引
       仏滅
       赤口, 回答:: 友引
      質問:: 仏教のお葬式や法事のお焼香で用いられる細かい香木はどれ?, 選択肢::
       抹香
       線香
       香炉
       数珠, 回答:: 抹香
      質問:: お悔やみの言葉で口頭で使うにはふさわしくないものを選べ, 選択肢::
       残念でなりません
       お悔やみ申し上げます
       ご愁傷様です
       ご冥福をお祈りします, 回答:: ご冥福をお祈りします
      質問:: のし袋の渡し方として、正しくない説明を選べ, 選択肢::
       ふくさに包んで持参する
       両手で持って渡す
       玄関先で真っ先に渡す
       表書きが相手に見えるようにして渡す, 回答:: 玄関先で真っ先に渡す
    ||| + template_blank;
    
    local template_regional_identity = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 日本で初めて小学校ができたのはどこか選べ, 選択肢::
       大阪
       横浜
       京都
       東京, 回答:: 京都
      質問:: 吉水神社の名勝として知られる桜の風景の別名はどれ?, 選択肢::
       一目十行
       一目十年
       一目千本
       一目八景, 回答:: 一目十年
      質問:: 宇都宮が「餃子のまち」と呼ばれるようになった理由について、誤っているものを選べ, 選択肢::
       気候の差が激しい宇都宮周辺は、小麦と白菜を作るのに適していた
       夏が暑い宇都宮で、スタミナを付けるために人気が高まった
       戦時中、兵隊が中国で食べていた餃子を、戦後になって宇都宮で作り始めた
       昔からキャベツや玉ねぎの生産や養豚が盛んだった, 回答:: 昔からキャベツや玉ねぎの生産や養豚が盛んだった
      質問:: 四国八十八か所の一番札所はどれ?, 選択肢::
       霊山寺
       極楽寺
       大日寺
       金泉寺, 回答:: 霊山寺
    ||| + template_blank;
    
    local template_geography = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 日本の人工島空港で2番目に古い空港はどれ, 選択肢::
       関西国際空港
       中部国際空港
       神戸空港
       羽田空港, 回答:: 中部国際空港
      質問:: 2024年現在、日本で二番目に大きい古墳はどれ?, 選択肢::
       応神天皇陵古墳
       造山古墳
       仁徳天皇陵古墳
       箸墓古墳, 回答:: 応神天皇陵古墳
      質問:: 東京23区のうち、2024年1月時点で2番目に人口が多い区を選択肢から選べ, 選択肢::
       世田谷区
       大田区
       足立区
       練馬区, 回答:: 練馬区
      質問:: 2024年現在、最も標高が低い山はどれ, 選択肢::
       信夫山
       富山
       久能山
       二上山, 回答:: 久能山
    ||| + template_blank;
    
    local template_history = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 日本橋にある、日本の国道の起点を示した「日本国道路元標」の文字を書いたのは誰か選べ, 選択肢::
       徳川慶喜
       伊藤博文
       田中角栄
       佐藤栄作, 回答:: 佐藤栄作
      質問:: 江戸時代に職業として存在しなかったものはどれ?, 選択肢::
       調律師
       小便仲間
       屁負比丘尼
       けだもの屋, 回答:: 調律師
      質問:: 平安時代、浄土教を信仰した藤原頼道によって建てられた世界遺産はどれ?, 選択肢::
       中尊寺
       平等院
       唐招提寺
       金剛寺, 回答:: 平等院
      質問:: 初めての日本郵便切手に使われた通貨単位はどれ?, 選択肢::
       円
       両
       文
       銭, 回答:: 文
    ||| + template_blank;
    
    local template_government = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 2024年12月現在、マイナンバーカードを作成後、自主的に返納し、再度作成する場合(電子証明書の発行含む)にかかる手数料はいくらか選択肢の中から選べ, 選択肢::
       500円
       800円
       1000円
       2000円, 回答:: 1000円
      質問:: 2024年12月現在に存在する、8月1日から翌年7月31日の医療保険と介護保険の自己負担額が高額な場合、自己負担を軽減できる制度はどれ?, 選択肢::
       高額介護合算療養費制度
       高額療養費制度
       高額介護サービス費制度
       高額医療費制度, 回答:: 高額介護合算療養費制度
      質問:: 2025年2月現在、国民生活センターの問い合わせ先の電話番号はどれ?, 選択肢::
       03-5662-7637
       03-3446-0999
       188
       03-3406-7644, 回答:: 03-3446-0999
      質問:: 2024年12月現在、自動車を解体処分した際に必要な手続きを選べ, 選択肢::
       解体証明書
       リサイクル法
       一時抹消登録
       永久抹消登録, 回答:: 永久抹消登録
    ||| + template_blank;
    
    local template_law = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 2024年現在、速度指定されていない高速道路での最低法定速度はどれ, 選択肢::
       時速50キロメートル
       時速30キロメートル
       時速40キロメートル
       時速60キロメートル, 回答:: 時速50キロメートル
      質問:: 2024年現在、ドローン視点のカメラ映像が使用できるFPVドローン(5.8GHz)の操作が出来ない資格はどれ, 選択肢::
       第2級陸上特殊無線技士
       第3級アマチュア無線技士
       第2級アマチュア無線技士
       第1級海上特殊無線技士, 回答:: 第1級海上特殊無線技士
      質問:: 道路上に描かれているひし形のマークの名称はどれ?, 選択肢::
       横断歩道注意マーク
       ダイヤマーク
       自転車横断帯マーク
       一時停止マーク, 回答:: ダイヤマーク
      質問:: 陣中見舞いで禁止されているものはどれ, 選択肢::
       金銭の寄付
       お菓子・果物
       弁当・酒・ジュース
       有価証券の寄付, 回答:: 弁当・酒・ジュース
    ||| + template_blank;
    
    local template_healthcare = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      質問:: 2024年現在、特定疾患療養管理料の算定対象外となる疾患はどれ?, 選択肢::
       胃潰瘍
       高血圧症
       結核
       喘息, 回答:: 高血圧症
      質問:: 2024年現在、マイナ保険証を利用した場合初診料はいくらか選べ, 選択肢::
       18円
       9円
       3円
       6円, 回答:: 6円
      質問:: 2024年現在、処方箋の使用期間は、交付の日を含めて何日以内か選べ, 選択肢::
       4日以内
       3日以内
       当日以内
       1週間以内, 回答:: 4日以内
      質問:: 訪日外国人旅行者の医療費は、一般的にどのような扱いになるか選べ, 選択肢::
       生活保護による診療
       無料診療
       自費診療
       公的医療保険診療, 回答:: 自費診療
    ||| + template_blank;
    
    {
      class_path: 'Generation',
      init_args: {
        eval_dataset: dataset_base_args,
        prompt_template: {
          class_path: 'Jinja2PromptTemplate',
          init_args: {
            template: '{% if category == "culture" %}'+ template_culture + '{% elif category == "custom" %}'+ template_custom + '{% elif category == "regional_identity" %}'+ template_regional_identity + '{% elif category == "geography" %}'+ template_geography + '{% elif category == "history" %}'+ template_history + '{% elif category == "government" %}'+ template_government + '{% elif category == "law" %}'+ template_law + '{% elif category == "healthcare" %}' + template_healthcare + '{% endif %}',
          },
        },
        metrics: [
          { class_path: 'ExactMatch',
            init_args: {
              lm_output_processor: [ 
                { class_path: 'NFKCNormalizer'},
                { class_path: 'StringStrip', },
              ],
              reference_processor: [ 
                { class_path: 'NFKCNormalizer'},
                { class_path: 'StringStrip', },
              ],
            },
          },
        ],
        gen_kwargs: { max_new_tokens: 128, stop_sequences: ['\n'], },
        batch_size: 1,
      },
    }
    

jcommonsenseqa

JCommonsenseQA is a Japanese version of CommonsenseQA, which is a multiple-choice question answering dataset that requires commonsense reasoning ability. The dataset is built using crowdsourcing with seeds extracted from the knowledge base ConceptNet. This is a setup for generating answers based on the choices provided.

References:

  • Hugging Face Dataset
  • Original Repository
  • JGLUE: Japanese General Language Understanding Evaluation
  • JGLUE: 日本語言語理解ベンチマーク
    local dataset_base_args = {
      class_path: 'HFGenerationDataset',
      init_args: {
        path: 'sbintuitions/JCommonsenseQA',
        split: 'validation',
        reference_template: '{% set choices = [choice0, choice1, choice2, choice3, choice4] %}{{ choices[label] }}',
      },
    };
    
    local template_ = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      ### 指示
      質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。
    
      ### 入力:
      質問:主に子ども向けのもので、イラストのついた物語が書かれているものはどれ?
      選択肢:世界,写真集,絵本,論文,図鑑
      ### 回答:
      絵本
    
      ### 入力:
      質問:未成年者を監護・教育し,彼らを監督し,彼らの財産上の利益を守る法律上の義務をもつ人は?
      選択肢:浮浪者,保護者,お坊さん,宗教者,預言者
      ### 回答:
      保護者
    
      ### 入力:
      質問:数字の1を表すときに使う体は?
      選択肢:胸,肉球,背中,人差し指,親指
      ### 回答:
      人差し指
    
      ### 入力:
      質問:火を起こすとあらわれるもくもくするものは?
      選択肢:歯の変色,ガス,中毒,爆発,煙
      ### 回答:
      煙
    
      ### 入力:
      質問:{{ question }}
      選択肢:{{ choice0 }},{{ choice1 }},{{ choice2 }},{{ choice3 }},{{ choice4 }}
      ### 回答:
    |||;
    
    {
      class_path: 'Generation',
      init_args: {
        eval_dataset: dataset_base_args,
        prompt_template: template_,
        metrics: [
          { class_path: 'ExactMatch' },
        ],
        gen_kwargs: { max_new_tokens: 64, stop_sequences: ['\n\n'] },
        batch_size: 1,
      },
    }
    

jnli

JNLI is a Japanese version of the NLI (Natural Language Inference) dataset. The sentence pairs are extracted from image captions and annotated by crowd workers.

References:

  • Hugging Face Dataset
  • Original Repository
  • JGLUE: Japanese General Language Understanding Evaluation
  • JGLUE: 日本語言語理解ベンチマーク
    local dataset_base_args = {
      class_path: 'HFGenerationDataset',
      init_args: {
        path: 'llm-book/JGLUE',
        subset: 'JNLI',
        reference_template: "{{ ['\"含意\"', '\"矛盾\"', '\"中立\"'][label] }}",
        dataset_kwargs: { trust_remote_code: true },
      },
    };
    
    {
      class_path: 'Generation',
      init_args: {
        eval_dataset: dataset_base_args { init_args+: { split: 'validation' } },
        few_shot_generator: {
          class_path: 'BalancedFewShotGenerator',
          init_args: {
            dataset: dataset_base_args { init_args+: { split: 'train' } },
            num_shots: 3,
          },
        },
        prompt_template: |||
          前提と仮説の関係を「中立」、「含意」、「矛盾」の中から回答してください。
          {% for item in few_shot_data %}
          前提:「{{ item.sentence1 }}」
          仮説:「{{ item.sentence2 }}」
          関係:「{{ item.references[0] }}」
          {% endfor %}
          前提:「{{ sentence1 }}」
          仮説:「{{ sentence2 }}」
        ||| + '関係:「',
        metrics: [
          { class_path: 'ExactMatch' },
        ],
        gen_kwargs: { max_new_tokens: 6, stop_sequences: ['前提', '」'] },
      },
    }
    

jsquad

JSQuAD is a Japanese version of SQuAD, one of the datasets of reading comprehension. The passages are extracted from Japanese Wikipedia, and the questions and answers are created by crowd workers.

References:

  • Hugging Face Dataset
  • Original Repository
  • JGLUE: Japanese General Language Understanding Evaluation
  • JGLUE: 日本語言語理解ベンチマーク
    local dataset_base_args = {
      class_path: 'HFGenerationDataset',
      init_args: {
        path: 'sbintuitions/JSQuAD',
        split: 'validation',
        reference_list_template: '{{ answers.text }}',
      },
    };
    
    local template_ = |||
      以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
      ### 指示
      質問に対する回答を文章から一言で抽出してください。回答は名詞で答えてください。 それ以外には何も含めないことを厳守してください。
    
      ### 入力:
      文章:聖武天皇 [SEP] 文武天皇の第一皇子として生まれたが、慶雲4年6月15日(707年7月18日)に7歳で父と死別、母・宮子も心的障害に陥ったため、その後は長らく会うことはなかった。物心がついて以後の天皇が病気の平癒した母との対面を果たしたのは齢37のときであった。このため、同年7月17日(707年8月18日)、父方の祖母・元明天皇(天智天皇皇女)が中継ぎの天皇として即位した。和銅7年6月25日(714年8月9日)には首皇子の元服が行われて同日正式に立太子されるも、病弱であったこと、皇親勢力と外戚である藤原氏との対立もあり、即位は先延ばしにされ、翌霊亀元年9月2日(715年10月3日)に伯母(文武天皇の姉)・元正天皇が「中継ぎの中継ぎ」として皇位を継ぐことになった。24歳のときに元正天皇より皇位を譲られて即位することになる。
      質問:文武天皇の第一皇子として生まれたのは?
      ### 回答:
      聖武天皇
    
      ### 入力:
      文章:通称 [SEP] 人名としての通称は通り名、二つ名、異名、などと呼ばれる事もある。近世までは、本名(実名)は「」と呼ばれ、公言は避ける習慣があった。そのため、人を呼ぶ時は「仮名」「字」などの通称、官職名を用いるのが一般的だった。今日でも「総理」「大臣」「社長」「専務」などと呼びかけに使うのがこれにあたる。
      質問:人名としての通称は何と呼ばれているか
      ### 回答:
      通り名、二つ名、異名
    
      ### 入力:
      文章:坂本龍一 [SEP] 2014年7月10日、所属事務所エイベックス・ミュージック・クリエイティヴから中咽頭癌であること、療養に専念するためにコンサート活動などを中止する旨が発表された。かつてはインタビューなどで度々自身の健康状態や体力に自信を表しており、コンサート等公演スケジュールを自身の健康に起因する理由でキャンセルしたことがなかった。
      質問:坂本龍一が療養に専念するためコンサート活動などを中止すると発表したのはいつか。
      ### 回答:
      2014年7月10日
    
      ### 入力:
      文章:リリーフ [SEP] プレッシャーの比較的かからない状態で投げることができるので、若手投手のテストの場としたり、故障明けや登板間隔の開いた投手を調整目的で登板させることもある。敗戦処理であっても好投すれば次回から先発や接戦での中継ぎに起用されるようになる場合もあり、幸い打線の援護を受けてチームが逆転すれば勝利投手に輝くこともある。
      質問:打線の援護を受けてチームが逆転するとどんな投手になる?
      ### 回答:
      勝利投手
    
      ### 入力:
      文章:{{ context }}
      質問:{{ question }}
      ### 回答:
    |||;
    
    {
      class_path: 'Generation',
      init_args: {
        eval_dataset: dataset_base_args,
        prompt_template: template_,
        metrics: [
          { class_path: 'CharF1' },
          { class_path: 'ExactMatch' },
        ],
        gen_kwargs: { max_new_tokens: 64, stop_sequences: ['\n\n'] },
        batch_size: 1,
      },
    }
    

mgsm_ja

Multilingual Grade School Math Benchmark (MGSM) is a benchmark of grade-school math problems. This is a Japanese subset of the benchmark.

References:

  • Hugging Face Dataset
  • Language Models are Multilingual Chain-of-Thought Reasoners
    local dataset_base_args = {
      class_path: 'HFGenerationDataset',
      init_args: {
        path: 'juletxara/mgsm',
        subset: 'ja',
        reference_template: '{{ answer_number }}',
      },
    };
    
    {
      class_path: 'Generation',
      init_args: {
        eval_dataset: dataset_base_args { init_args+: { split: 'test' } },
        few_shot_generator: {
          class_path: 'RandomFewShotGenerator',
          init_args: {
            dataset: dataset_base_args { init_args+: { split: 'train' } },
            num_shots: 4,
          },
        },
        prompt_template: |||
          {% for item in few_shot_data %}
          {{ item.question }}
          {{ item.answer }}
          {% endfor %}
          問題: {{ question }}
        ||| + 'ステップごとの答え:',
        metrics: [
          { class_path: 'ExactMatch', init_args: { lm_output_processor: { class_path: 'RegexExtractor', init_args: { pattern: '-?[0-9.,]+' } } } },
        ],
        gen_kwargs: { max_new_tokens: 256, stop_sequences: ['問題:'] },
      },
    }
    

wrime_pos_neg

WRIME (dataset of Writers’ and Readers’ Intensities of eMotion for their Estimation) is constructed by annotating Internet posts with both the writer’s subjective emotional intensity and the reader’s objective one. This setup converts the original dataset into binary sentiment classification.

References:

xlsum_ja

XLSum is a comprehensive and diverse dataset comprising 1.35 million professionally annotated article-summary pairs from BBC, extracted using a set of carefully designed heuristics. This is a Japanese subset of the dataset.

References:

  • Hugging Face Dataset
  • Original Repository
  • XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages
    local dataset_base_args = {
      class_path: 'HFGenerationDataset',
      init_args: {
        path: 'csebuetnlp/xlsum',
        subset: 'japanese',
        reference_template: '{{ summary }}',
      },
    };
    
    {
      // as we deal with LLMs with short context window, we set max_text_length and max_summary_length
      class_path: 'Generation',
      init_args: {
        eval_dataset: dataset_base_args { init_args+: { split: 'validation' } },
        few_shot_generator: {
          class_path: 'BalancedFewShotGenerator',
          init_args: {
            dataset: dataset_base_args { init_args+: { split: 'train' } },
            num_shots: 1,
          },
        },
        prompt_template: |||
          文章を1〜3文で要約してください。
          {% for item in few_shot_data %}
          文章: {{ item.text }}
          要約: {{ item.references[0] }}
          {% endfor %}
          文章: {{ text }}
        ||| + '要約:',
        metrics: [
          {
            class_path: 'ROUGE',
            init_args: { tokenizer: { class_path: 'SacreBleuTokenizer', init_args: { name: 'ja-mecab' } } },
          },
        ],
        gen_kwargs: { max_new_tokens: 100, stop_sequences: ['\n'] },
      },
    }