人工知能– category –
-
人工知能
「フレーム」と「深さ」で音をつくるAI :階層トークン生成が拓く次世代マルチモーダル合成
1. はじめに 数年前まで、AIが生成する音楽は「メロディらしきもの」が断片的につながった、どこか不自然な合成音でした。それが今では、テキストでと指示するだけで、コーラスもベースもドラムも整った数分のトラックが出てきます。音声合成も同じです。... -
人工知能
テキストから絵を生み出すAIの正体:拡散モデルが切り拓く次世代画像生成の最前線
1. はじめに ほんの数年前まで、「文章を入力するだけで写真のような絵が出てくる」という体験はSFの世界でした。ところが2022年以降、Stable DiffusionやDALL-E、Imagenといったサービスが次々と登場し、いまや誰もが数秒でイラストや写真風画像を作れる... -
人工知能
AIは“特許図面”を読んで説明できるのか?図の文章化が変える次世代ドキュメント作成
1. はじめに 論文や特許、技術マニュアルを読んでいると、本文より先に図を見たくなることがあります。ところが本当に理解を助けているのは、図そのものだけではありません。「この図は何を示し、どこが重要で、どう読むべきか」を文章で補う説明があって... -
人工知能
水中モードはここまで賢くなる:領域分割で進化する次世代「色補正」技術
1. はじめに 海やプールで撮った写真が「青い」「緑っぽい」と感じるのは、撮影者の腕というより、水の中で光が減衰して“色の材料”が足りなくなることが原因です。これまではホワイトバランスを変えたり、赤みを足したりする一括の補正が中心でした。 とこ... -
人工知能
バズは「音」と「絵」の共鳴で生まれる?:マルチモーダル埋め込みが変える動画トレンド解析
1. はじめに 「なぜこの動画だけ急に伸びるのか?」という疑問は、視聴者だけでなくプラットフォーム運営側にとっても切実です。ところが、動画の“伸び方”を人手で分類したり、人気の型(トレンド)を後追いで集計したりするのは、規模が大きくなるほど現... -
人工知能
1000言語時代の「声のOS」:多言語Text-to-Speechが“低リソース言語”を救う仕組み
1. はじめに スマホやカーナビが自然にしゃべるのは当たり前。でも、その「当たり前」は世界の言語すべてには届いていません。話者が多い言語は高品質な音声合成(TTS)が整っている一方で、学習データが集めにくい言語(低リソース言語)では、いまだに不... -
人工知能
AIが静止画に命を吹き込む:点軌跡予測による次世代画像アニメーション技術
1. はじめに 一枚の写真が動き出す——そんな魔法のような体験が、今や現実のものとなっています。スマートフォンで撮影した静止画が、まるで動画のように生き生きと動き出す技術。その背後には、ニューラルネットワークによる点軌跡予測(Point Trajectory ... -
人工知能
「写真が見つからない」を解決する次世代AI検索技術
1. はじめに スマートフォンで撮影した写真や動画が、気づけば数千枚にもなっていた――そんな経験はありませんか?「あの時の写真、どこだっけ?」と探し始めても、延々とスクロールする羽目に。日付や人物名で検索しても、似たような写真が何百枚も出てき...
1
