多種多様な生成AIをどう使うか

株式会社テイク-ワンのH.Tです。

今回は、最近は業務でも関わる事の増えた生成AIについて書いてみようと思います。

コーティング補助としての生成AI

今の作業現場ではVisualStudioCodeを使用して開発を行っていますが、ChatGPTやClaude Sonnet、Geminiなどを選んで開発補助を行う事ができる環境です。

何か新しい機能を実装する際に、こういう風に作るにはこのパッケージをどう使えばいいか、と言った指示プロンプトに対してAIが回答をしてくれて、それを元にコーティングを行う事が出来ます。各個人にアシスタントが付いたような状態で、作ったコードのレビューもAIに頼む事が出来て非常に便利です。勿論最終的には人間の目でのチェックが必要にはなりますが、色々と従来とは異なるアプローチが増えて、時代が変わったなと感じることが多いです。

何か資料を作成する際にも活用されることが多いと思いますし、今の時代はAIの時代と言えますね。

AIによる得意分野の違いを理解して活用するとより良い

最近のAIでは、世間での認知度の高さではChatGPTなのかなと思いますが、個人的に面白いなと感じているのはGoogle社製のAI、Geminiです。
直近では、アップデートバージョンである3.0が2025年11月18日に公開されて話題になっていました。そこで試しに色々と使ってみたのですが、他社のAIでも似たような事は出来るものの、Geminiに関しては画像や動画・音声の解析に関してはかなり特筆すべき性能をしていて、上手く使えば便利だなと感じましたのでいくつか紹介したいと思います。

Gemini3.0の面白かったところ

画像の加工や、OCRの精度が高いこと。
画像内にある一部を切り取って、斜めを向いているそれを縦横をまっすぐに揃えて切り出す
と言ったことがすぐに出来たり、画像内の文字をドキュメント化するのも容易でした。

業務で実用するとしたら、例えば会議を行ったとして、ホワイトボートに乱雑に書き込まれた文字を写真やスクリーンショットで画像にしたとします。それを文字に起こしたり、ホワイトボート内に記載されているグラフや図などを清書するようなことが、Gemini3.0では非常に高精度で行うことが出来ます。その際に、Gemini3.0では、例えば文字が判別しにくい(字が汚い)場合でも文脈から推察して補完する機能に優れていて、Gemini2.5に比べるとその辺の精度が格段に上がりました。議事録等を整理する際に時短になると思うので、現場によっては業務でも活用出来る場面はあるように思います。

以下にサンプル画像で例示します。

ホワイトボードの画像(Demo用)

グラフ部分を切り出してズレを整形した場合

※この画像はDemo用に生成AIが作った、敢えて誤字のあるサンプル画像です。

Geminiに解析を指示

指示プロンプトの内容は以下

「このホワイトボードの画像を解析してください。​タイトルを読み取ってください。​グラフの傾向を読み取り、Keep(赤)、Problem(青)、Try(緑)が1週間でどのように推移したか、分析コメントを書いてください。​このグラフの数値を推測し、CSV形式で出力してください。」

【結果】

1. タイトル:
画像内のタイトルは含まれていませんが、グラフのラベルから「KPT(Keep, Problem, Try)の推移グラフ」と推測されます。

​2. グラフ分析:
X軸の手書き文字に一部誤字(Sue, Tuedなど)が見られますが、月曜日からの1週間の推移として解析しました。

​Keep (赤): 月曜日から火曜日にかけて急激に上昇し、週の前半は非常に高いモチベーションや成果があったことが伺えます。水曜以降は下降トレンドに入っていますが、週末まで一定数は維持されています。

​Problem (青): Keepの上昇より少し遅れて水曜日にピーク(約60)を迎えています。活動が活発化するにつれて課題も浮き彫りになった可能性がありますが、木曜日以降は順調に減少しており、解決に向かっています。

​Try (緑): Problemの発生に合わせて水曜日にピークを迎えていますが、全体的に数値は低めです。課題に対する具体的なアクション(Try)が少し不足していたか、あるいは少数のTryで効率的にProblemを解決できた可能性があります。

​3. 数値データ(CSV出力):
※X軸のラベルは、文脈から正しい曜日に補正して出力します。

Day,Keep,Problem,Try
Monday,10,10,10
Tuesday,85,48,20
Wednesday,80,60,32
Thursday,60,48,20
Friday,30,28,5
Saturday,20,10,2
Sunday,10,10,0

簡易サンプルによる例ですが、画像の内容から読み取って推察した結果になってるのが分かると思います。AIの推察が実際と異なり誤っている場合には、再度指示プロンプトで訂正をすれば補ってくれます。

動画や音声の要約、多言語対応

動画の要約が凄いと言う事だったのでやってみましたが、長時間の動画の内容をしっかりと要約する事が出来ました。

英語で話している技術動画やカンファレンスの動画があったとして、それを解析して要約し、ちゃんと日本語で出力する事ができます。海外の一次ソースなどを英語が分からなくても内容を理解する事が出来ますし、言語の壁を超えられるのは面白いなと感じました。
業務利用の観点だけでなく、技術系の海外の動画などで勉強したい場合にも便利に使っていける機能だと思います。

また、1時間以上もある長尺動画をじっくり見る時間が無いという人にとっても、すぐに要約出来るのは良いところです。改めて動画の内容をちゃんとみた際に、動画内の何分辺りの話について詳しく説明して、と言った指示で特定の箇所に対して深い解説をみることも出来ます。

動画だけでなく、音声の要約も出来ます。
先日家族の入院に際して病院で医師から説明があった際に、スマホで録音しておいた音声データをGeminiに読み込ませて要約してみましたが、何を言われたのか要点を捕まえて上手く文字化してくれていました。

業務に置き換えると、会議の内容を録音しておいたものをGeminiに読み込ませて議事録化するような利用方法が便利な使い方のひとつになると思います。単純な文字起こしツールとの差は、内容のポイントを抑えて要約する事が出来、タスクを抽出する事ができる事です。

単純な音声文字起こしツールだと「金土日(きんどうにち、と発音)」という曜日に関する言葉を発した物が「近道日」と変換されたりしますが、AIではその辺も文脈から推察して正しい文字に起こされる可能性が高いのも良いところかなと思います。

メールやスプレッドシートを横断して要約、検索

個人的なGoogleアカウントでの操作感になりますが、GeminiはGoogle社製のAIな事もあり
Google Workspace拡張機能を通じてGmailに直接アクセスできるので、メールの内容を精査することが出来ます。単なるメールボックスの検索と言う事ではなく、自分が返信していなくて相手から緊急や返信を求められてそうなものをピックアップして、と言った指示で抽出できるので、メールの見落とし対策が出来ます。

また、指定のフォルダ(Drive)の中に関連する複数のスプレッドシートがあった場合に、それらの内容を精査して要約する事が出来ます。あるいは何かを調べたい時など、調べたい内容の記載されたスプレッドシートはどれかを検索することも出来て、大量のファイルの海から欲しい情報を簡単に探し出す事が出来ます。

そう言ったファイル作業はshellのコマンドでもやろうと思えば出来ることですが、難しいコマンドを調べて打ち込まなくてもAIが直観的にやってくれるだけでも精神的にも楽で、安全に時短になると感じます。

昨今の大AI時代、使えるものは上手く気をつけながら使っていきたい

スマホでもAIが使え、何でもAIに質問して応えて貰えるすごい時代になってきました。
とは言え、使う側のリテラシーも大事になってきます。
社外秘の機密情報を外に出さない(学習させない)ようにする心掛けは必須になりますし、AIが出力する答えが本当に正しいのか、何処かからの盗用になっていないかと言った裏付け確認も重要になります。

業務でAIを使う際には会社で許可されたアカウントのAIである必要があるでしょうし、それを踏まえてセキュリティ意識は高く持つ必要があります。

今日紹介した物も、時間が経てばすぐに古い情報になり、次にアップデートされたAIによって更に色んな事が出来るようにもなっていくと思います。

そうした情報にアンテナを張りつつ、IT業界に身を置く1人として上手くAIと付き合って時代に取り残されないようにしていきたいと思います。

https://gemini.google.com/app?hl=ja

前へ

システム運用保守の現場で持っていたいスキル(IT技術編)